Self-Monitoring, Analysis and Reporting Technology

Self-Monitoring, Analysis and Reporting Technology (セルフモニタリング・アナリシス・アンド・リポーティング・テクノロジー、略称: S.M.A.R.T.; スマート) は、ハードディスクドライブと、ソリッドステートドライブの障害の早期発見・故障の予測を目的としてディスクドライブに搭載されている機能である。この機能は、各種の検査項目をリアルタイムに自己診断し、その状態を数値化する。ユーザーはその数値を各種のツール(後述)を用いることで知ることが出来る。

世界でもっとも多くのHDDを利用している企業の一つであるGoogleは2001年以降同社で利用してきた10万台以上のHDDの故障率を統計解析した結果を発表したが、それによると、温度や利用率がHDDの寿命と大きな相関がないことを示した一方、S.M.A.R.T値のいくつかのパラメタ(Raw Read Error Rate(読み込みエラー率)、Reallocation Counts(代替処理済みの不良セクタ数)、Offline Reallocation(回復不可能なセクタ数)、Probational Counts(代替処理待ちセクタ数)など)に有意な相関があることを示した。しかし、S.M.A.R.T値によるHDD寿命予測は事実上困難であり、半数のHDDが何の兆候も見せず突然死することも明らかにした。従って、あくまでもS.M.A.R.Tは参考に留まることに注意しなければいけない。

検査項目 (属性)

各検査項目(属性)には、「現在の値」(: value)、「最悪(ワースト)値」(: worst)、「閾値」(: threshold)、そして「生の値」(: data / raw value) の4つの項目が設定されている。これらの値がどのような方法によって算出されているかは各ベンダーによって異なるため、一概にどの値がどうなっていれば良いとは言い切れないが、一般的に「生の値」が実際のエラー等の回数や時間や温度を示しており、「生の値」を正規化したものが「現在の値」、今までの「現在の値」のうち最も悪かった時の値が「最悪値」である。(「生の値」が明らかにおかしい値の場合はベンダー独自の内部形式であると考えられる)

「現在の値」は大きいほどよく悪くなると減少する。「現在の値」の最も良い時の値は100であることが多いがこれも製造者によって様々である。「閾値」はベンダーが定めた限界値で「現在の値」または「最悪値」が「閾値」を下回ることがあれば、データのバックアップやハードディスクの交換など必要な処置を施すべきであると考えられる。また Temperature (C2(16進)) や Reallocated Sectors Count (5(16進)) など「生の値」が重要な項目も存在しており、「閾値」を下回らなくとも注意が必要な場合がある。

以下はS.M.A.R.T.によって報告される主な検査項目の一覧である。ATA仕様では属性のIDが何を示すかは規定していないためこの表は基本的にすべてベンダー独自の意味を解釈しているにすぎないことに注意すべきである。特に重要な項目については「(重要)」という記号をつけた。ただし、HDDベンダーによって調査可能な検査項目は若干異なるため、必ずしも全ての項目を調査できるわけではない。また、HDDベンダーが独自の検査項目を設定していたり、IDが異なっていたり、独自の名称を設定している場合もあるが、それらについてはここでは網羅していない。

各種のツール

多種多様なツールが存在しており、HDDベンダーから診断ツールが公開されている場合もある。以下は、主なツール等の製作・配布元である。

装置ベンダーとツールベンダーでデータの意味付けが異なることが多い。そのため、A社のHDDの状態についてB社のツールがエラー、障害あるいは劣化がある、あるいはないと表示したとしても、実際とは違うかもしれないので注意が必要である。

脚注

外部リンク

Uses material from the Wikipedia article Self-Monitoring, Analysis and Reporting Technology, released under the CC BY-SA 4.0 license.