Twitterにも書きましたが、RAIDを初めに構成したときから2台目のHDD不良が発生したため交換して復旧させました。今回もとりあえずは普通に復旧したのでまあ良かったのですが、そうなるとこの疑問に突き当たるわけです。
故障間隔を考えてみる
blogの記事を追ったのでだいたいの期間が分かるのですが、まずマシンを組み立てたのが2013年1月。RAIDを構成しているHDDで一台目が応答不良になったのが2014年11月。二台目が応答不良になったのが2015年4月、というペースになっています。まあ、初めに組み立てたときの資金不足の影響から使用したHDDがNAS用ではない(ただし、サーバーの本体データを格納しているHDDはNAS用を使用)のでNASとして使用すると予定より短い期間で故障確率が上がるのはまあ分からなくはないです。ですが、この間隔は分布として正しいのでしょうかね・・・。
個人的にはHDDは通常使用ならだいたい5年は持つ、という認識なのでこの故障間隔だとかなり早い印象を受けてしまいます。三台目も近いうちに故障しそうな気もする状態ですし。まあRAID5して使っているので適当なタイミングで起こるRAIDの同期チェックで負荷がかなり高まるために故障しやすくなっている、といわれればそれまでかも知れませんね。複数台使っているので全てに悪くないHDDを引き当てるは確率的に無理だ、とも考えられるところですか。ただ同時期に故障しないだけましともいえるかも知れません。
アラートメールが来なくてもRAIDが危なくなることもあるのね
今回の場合はとあるHDDで一部領域において妙なI/O Errorが発生したことはログなどから確認しています。・・・しかしながら、これがRAIDの不良として認識されたのではなく単に「RAID領域がアクセスしづらい」という状態で現れたのが不運なところだったのかも知れません。実際HDDの故障を見つけるに至るまでにはI/O Errorが出始めた段階ではなくRAIDの同期チェックで特定の領域の同期処理で処理が極端に遅くなりRAIDへのアクセスが正しく通らなくなる、というところからログをチェックして理由を見つけた、という手順だったりします。
こういうのは日頃からいろいろとチェックしておくのが正しい、というのがよく分かりました。一台でもトラブルがあるとRAID5の領域はかなりアクセスに問題が出るようですのでそのあたりは気をつけましょう、と。RAID5なので復旧は不可能ではないですが相も変わらず復旧中に別のHDDが故障して復旧不可能になる、という事態だけは本当になってほしくはないですね。
またNASを作らないとだめかな・・・
こう故障確率が上がり続けるようなら予備を投下し続けるよりもう一台組み直してそちらにコピーする、というのも資金があるのであれば視野に入れたいところですね。この頃は8TBのHDDも少しずつですが手に入るようになってきていますし、そうなるとRAID1orRAID5で安全性を確保して組み立て直し、が次の予想ですか。