記憶域プールが死にかける。
2TB×3台のパリティ構成にしており、1台に障害が発生。
ついでなので3TBを導入し段階的に残りの2台も3TBに変えていこうと模索する。

さて、記憶域プールを使い始めて障害によりディスクを交換するのは実は初めてです。およそ五年経ってましたが、安定稼働していました。


まずは新HDDを記憶域に追加するのですが、これがなぜか数回失敗する。この時点でちょっとクサいのを感知できていればよかったのですが、いかんせん若干飲んでたこともありえいやっと作業を進めていく。追加失敗の原因はよくわからないまま、WDの3TBがまず記憶域の仲間入りを果たす。

はずだったのですが結局WDの3TBに警告が出る。
この時点で記憶域のデータ領域にアクセスできなくなりました。すわ一大事、だが元の2TB2機が無事なのでデータがヤバいッてことはないだろう。3TBを一旦退場させたいが、1%程の使用量が発生しているようだったので、穏便に済ませるにはもう一台HDDを準備したいところ。
とりあえずは「段階的に」追加するつもりで居た3TBをもう1個調達しようと仕事帰りにアプライドに寄ってみたが、WDの緑ラベルが3TBで10,000円オーバーというなんだかとんでもない強気価格設定。近場のパソコン工房が震災で営業止めちゃってるからだろうか。
ハッキリ言って値下げ交渉する気分にもならなかったので其の日の夜(木曜日)のうちにアマゾンで発注。翌日ステータスを確認すると日曜日に到着するようでした。

土曜日。犬の予防注射に趣き、ついでなので平成のパソコン工房に行く。モヤってる気持ちを土曜日のうち落ち着けたいので、どのみちいずれ必要になる3台目の3TBを購入。データが飛んでたら不必要になるおそれがあるのですが。

さて、一時的にシステムHDD+2TB+2TB+3TB+3TB+3TBの構成にするため、PCIe→SATAカードも買う。手持ちのものはWindows10用ドライバが怪しいやつしかなかったのです。
サーバーで使用しているマザーはP5K、SATAコネクタはサウスで4つ、追加チップで+2個なのですがそのうち一つはExternalなので。ケーブルどっかにあったはずだけど探すのも面倒。と、なると電源コネクタも足らないかもねーということで4ピン→SATA電源2個の分岐ケーブルも調達。

と、購入終えたくらいにアマゾンアプリから通知が。今日届くって。ぐぬぅ。

結局上記した6台構成を構築し、なんとなしにHDD同士がカリカリデータ修復してるような音がし、一時的にデータにアクセスできる状態に。
この時点では小容量なブログデータとメールデータ等を別媒体に避難させる。

土曜日の夜。
コンパネの記憶域GUIが開けなくなったり記憶域自体にもアクセスできなくなったりとかなりキナ臭い匂いがし始める。で、この時点で残りの2台2TBから微妙なカツカツ音が聞こえ出す始末。

タスクマネージャーのパフォーマンスを見ると記憶域のデータアクセスが100%で推移しているため、何かしら作業が発生してるのだろうと土曜の夜はそのまま放置して就寝。翌日友人達と飯食いに行くことになってたので。


日曜日の朝。
NumLockの解除ができなくなってる=サーバーが固まっていた。
ハラハラしつつも強制終了し改めて起動。この時点では記憶域GUIが確認できる状態でした。リペアが進んでいるものだと思い込み外出。

そして外出先でリモートデスクトップを見ると今度は新規に調達した3TBに警告が出ている。どー言うことだ。
帰宅時は相当な状態で酔っ払っていたため、サーバーをいじることなく就寝。カツカツ聞こえた2TBは正常ステータスなんだよなー、でもやっぱりちょっと音が変。

月曜日の朝。
NumLockの解除はできるが画面が出てない状態。仕方ないので強制終了。
そのついでに、「物理障害が起きた初期の状態ではHDDを裏返すと一時的にデータが読めるようになる」という事を今まで何度も経験しているのでとりあえず音が怪しい2TBをひっくり返すことに。

このとき、HDDを筐体から外して床に置くため、土曜日に調達していた分岐ケーブルから電源をとったのですが、なんと怪しい2TBがスピンアップすらできなくなってしまう(キューン→カタンを繰り返す)。とうとうご臨終か、そして俺のデータも帰らぬことに……なのか。
いや、昨日の時点で警告が出ていた新3TBも分岐ケーブルから電源取っていたのでなんか腑に落ちない気がしてきた。いやそういえば分岐ケーブル、パッケージに3.3V未対応とか書かれてなかったっけ?HDDって5Vかと思っていたけどなんか勘違いしてた?

ともかく電源ケーブルを整理してみるともともと全HDDに電源供給できる数があったので全てを直に接続し直してみることに。怪しい2TBもキッチリスピンアップし、新3TBの警告も消えてる、というか記憶域GUIも表示できており、データも読める!しかし記憶域GUIでは「最適化0%」のまままったく進捗せず

ここでやっとget-storagejobコマンドを知ったのでPowerShellで実行。
RepairとRegenartionが進捗しているのが確認取れました。これが原因でパフォーマンスが100%推移していたのだな。GUI未だに一部不親切だねぇ。

とりあえず、一番最初に導入した3TBがlostCommunicationになってるのが気持ち悪いですが一時本気で諦めかけてたデータはどうにか取り戻せそうです。
SATA3.2から3.3V供給が廃止されてるらしいのですが、どーいう組み合わせでこんな中途半端な稼働してしまってたのかなぁ。もしかするとWDの3TBはその辺の問題が出ているのでは。

修復作業が続いている状態で完全に落ち着けたわけではないが、最悪の事態は免れそうです。やれやれ5年前、WidnowsHomeServerでは本当に致命的になりかけたけどどうにか9割くらいの被害で済んだのですが、やっぱり物理的なバックアップ取っとかないといかんな。落ち着いたらBlu-rayに焼きまくろう。