RAID5アレイのHDDが一つ不良に・・・

この記事を書いている段階では修復が終わって平常運転に戻っているので何とか安心です。ついでにいくつかのパッケージ更新のおかげでOSのバージョンも上がりましたし、後は時間をおいて再度RAID5のチェックを行えばまあ問題ないでしょ、という感覚ですが、気がついたときにはかなりやばかったです。はい。

 

ファイル転送速度が遅かったので気になってステータスを見てみると・・・

RAIDアレイのチェックそのものは定期チェックをかけているのですが・・・。ステータスからHDD一つ分の応答がなくなっていることを確認してびっくり。このblogで構築の話は書いたと思うのですが、LinuxのSoftwareRAIDであるmdadmを使って構築している物ですのでステータス管理はすべてLinux上からやっています。それが崩れたのでかなりやばいな、ということで一応簡易チェックだけして完全にデバイスからの応答がおかしいことを確認した後でデバイスを予備と交換してRAID5の修復に入らせました。あって良かった予備ですよ。夏にMainPCを交換するために秋葉原に買いに行った段階で同じ型の物を予備として購入しておいた物がまさかこんな至近で役に立つとは。

今回の場合はどうもある段階でハードウェア的に応答がおかしくなってRAIDが不良デバイスとしてマークするより先にOS側から認識できなくなっていた様で、HDDを交換後パーティションを構築してRAIDにデバイスを追加してリビルドだけですみました。通常の交換であれば不良デバイスとしてマークがいる様な気がしていたのですが、その部分だけ短縮されたわけですか。RAID5は一台が壊れると予備が無くなっている状態+同じようなHDDでRAIDを構築するなら壊れる時期も似る可能性が高いという性格上「一台壊れても大丈夫」だけれども「壊れた状態を修復中にさらに追加して一台が壊れる」と言うことが往々にある、と聞いていたのでかなり怖かったですね。

 

さて、いったい原因は何だったのだろうか?

HDDを予備と交換してアレイをリビルドし終わっているので原因を考察しても仕方が無いのですがやっておかないと後が怖そうな気がしています。というわけで、以下。

LInuxの起動時に壊れた(と思われる)HDDを接続して起動するとI/Oエラーが大量に出ていたので通常であればHDDの制御系、あとはケーブルやSATAの制御系に問題が起こったかその辺だと考えているのですが・・・。外した後でSMARTを別のマシンから実行してみると何事もないかの様に動いているんです。このあたりは微妙ですね。SMARTでずばっとエラーが出てくれれば逆に原因が特定できたので以降は使わない、ですむのですが・・・。

まあ、一度問題が発生したデバイスを使う様なことはしないので今回はここまで、ということで。

 


コメントを残す

メールアドレスが公開されることはありません。

*

この記事のトラックバック用URL