【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学 [凜★]
■ このスレッドは過去ログ倉庫に格納されています
■京都大学(2021年12月28日)
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html 外資系が100%自責による過失って発表するの珍しい気が。 >>795
担当者がビビり倒して勢いに任せて書いちゃったのをそのまま載せた感があるな >>47
計算機シミュレーションだと結論だけ残せばいい場合もあるけど、
そうじゃなくて途中も残すとすごいサイズになりそうだ。 何年か前に HPとヒューレット・パッカード分社して別会社になってる bashとかいうゴミ使ってる時点であらゆる想定外の挙動はリスクとして織り込むべき >>796
読む人によって感じ方が違いそう
ストレージ関係者> まだ独自スクリプトでバックアップなんてしてんの?
高可用性システムのSIer> 普通バックアップサービス止めてからやるだろ!SLAとか大丈夫なんか?
低可用性システムのSIer> bashのこんな仕様知らんかったわー、あぶねー、これは仕方なし
スパコンのSIer> あーw やってもうたかwま、次は気をつけろよ >>801
スパコンの運用はSIerには分からないでしょ HPとHPEの違いもわからない。
クレイがHPE傘下になったことも知らない。
埋まった方のスレはそんなんばっかり。
前提条件を知らずにレスするなよと言いたい。 スパコンにだけこういう計算に使うデータが入ってたなら困ることになる
https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2018JE005579
このデータは復元したデータになる
アポロの乗組員が月の地表温度や地中温度を計測する機器を月に仕込んで
地球に発信させて採取したデータになる
データの特徴
@ 管理が杜撰でテープがボロボロになってデータもボロボロになってた データの復元が大変だった
A アポロの乗組員が計量する条件をちゃんと考えずに機器を設置したので(考えたらず)、ずっと温度があがる計量結果になってた
頭がいいやつは、データが消えようが、データがくさってようが
それをちゃんと最大限利用して結果をだす
わかった? 誤動作じゃ無くて正しく動作した結果だな
バックアッププログラムはプログラミングされた通りに動作したろ >>718
いまのテープドライブって入れ替えるだけで簡単にできるの?
だって300GB程度だろ?交換が面倒くさすぎる >>109
それは京大のデータセンターが学内に出したリリース。 これ、下手にこじれるとヒューレット・パッカードのエンタープライズ部門の日本総撤退の可能性すらある。
自社開発のサーバーの運用すら出来ないSEしかいないとなるとな。 >>809
今というかもうかなり昔からあるが、大規模システムのテープはチェンジャータイプのものだよ
テープを一度に大量にセットして、LVMの様に論理管理で大容量ストレージを実現する
システムから見る使い勝手はハードディスクとほぼ変わらない
カセットを一個一個セットしてバックアップするという運用ではないよ >>783
そんなもん開学以来のデータでも1テラ要らんやろ >>811
無いでしょ。去年買ったクレイを丸ごと切り離すくらい。 cpしてからrmするところをcpだけコメントアウトしたとか? >>793
それくらいしか善処の仕方もないからね。
あまり変わらんって所だけはNOだよ。
可能性の目減りは確定だし、
士気の低下も長期視点においては(積もることで)致命傷になる。
(当然、積もる様な慣習のある場合は致命傷も確定。) 77TBとか消すのも大変だと思うけどどうやって消すんだろ? スケジューラとかクーロンでキックしてサーバーで動かすときに
不具合で環境変数が読み込めなくなって誤作動が起きた、なんて話はよく聞くけど
プロが作るシェルスクリプトは普通は変数のチェックくらい入れるから
消す前にエラーで動かないように作る 俺なんて何を保存してたか覚えてない40GBの外付けHDDが
ご臨終になっただけでもショックなのに。 77 TB ってたいしたことないね昔だったらすごいけど今は8 TB が結構安いので10台あればこれを超える1万3000円ぐらいだから10台で13万だ
ただバックアップするのは容易じゃないぞ最低でもこのこれと同じ容量のものが別に存在しなきゃならないんだ 昔hpのサーバのSmartArrayで酷い目に遭った事がある
RAIDバッファが一杯になった時の処理にバグがあって、管理領域をデータで上書きしちゃってディスクに出鱈目のデータを書き込んでしまうというものだった find / -delete -mtime +10 -name \*.log /fill @p ~10 ~10 ~10 ~0 ~0 ~0 minecraft:tnt >>822
すでに書かれてるが7.68PB
1/4圧縮できれば24PBの容量 >>822
民生のHDDとサーバ用のHDDやらコントローラーを一緒くたにするのはNG
まあでもいくらハードが良くても今回みたいなのはね…… >>804
それEMCだと思うが
32,768時間運転でアホになってしまう bashがスクリプトを都度読むと言っても、そりゃ実行中のファイルから呼び出すファイルの話だろ 変数参照は""で囲んで空でもひとつの引数として解釈されるようにしとけって話だな
まあ"$@"みたいな罠もあるが >>833
いやスクリプトファイルの話。
実行中のスクリプトファイルを他のプロセスが書き換えることが可能なので、ある行までは変更前のスクリプトを実行してたのにそこから先は変更後の内容で継続実行、なんてことが起きてしまうらしい。 京大ちゃん達必死すぎてやべぇわwww
面白すぎて笑えるw
これくらいの事も対処できないんだね >>809
だから自動でカートリッジ入れ換えるチェンジャー装置使うのが普通
めちゃめちゃ高いけどな
どんなに安くても数千万円からするし保守費用も年間購入料金の2割はかかる >>833
適当にスリープ入れたら分かるよ
inodeが同じでも同じでなくとも実行されるからタチが悪い テープライブラリもしらないんか
そんなムダな機械構造使ってるとこなんかないわ
もともとカートリッジに必要なテープ全部入れてる バックアップ手順に、バックアップ作業中に気を付けること、やっちゃいけないことも列記されてるはずなんだけど、
守らなかったんじゃないのか。
HPが自社側の責任と認めているから、バックアップソフトの更新やったのは、HPなのかね。
>>718
HPやらかし多いのか。。。乗り換えたほうがいいんじゃないのかw キミラの書いてることすべてが信用できんから自分で確かめてみたわ
----
test.sh
----
#/bin/bash
while true
do
cp ./test_01.sh ./test.sh
cat ./test.sh
echo `date` "hello world"
done
----
test_01.sh
----
#/bin/bash
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
----
test_02.sh
----
#/bin/bash
while true
do
cp ./test_01.sh ./test.sh
cat ./test.sh
echo `date` "goto heaven"
done 実行結果
[hoge~]$ ./test
#/bin/bash
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:20:28 JST hello world
#/bin/bash
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:20:28 JST hello world
(延々と同じエコーが続く)
ホント、キミラは口から出まかせでウソばっかりいうのな >>844
#!/bin/bash
になってないからただのコメント扱い。
bashで動いてないな
再テスト #!/bin/bash
実行結果
[hoge~]$ ./test
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:57:17 JST hello world
#!/bin/bash
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:57:17 JST hello world
シバンをちゃんと書いて
再テストしても結果は同じ
そもそもログインシェルがbashだからな 前にHPC系の会社で大学の人はバックアップ取らない人が多い的な話を聞いた こんな障害があると
この障害の類似が
無いか確認しろといわれると
面倒くさいな。
rm 変数
の様なコードで
変数がnullじゃないチェック入れてから実行しないといけなくなるのか? 京大自身が運用してるって思ってる輩多いんだな、
世間知らずだな、 >>855
スクリプトの開始時にスクリプト自体をファイルロックする。
二重起動の防止にもなる。 >>262
保守リリースを手動でやるってのがないわな
バッチジョブにリリースジョブを作っておいて、その枠組みの中でやる >>847
スパコンのクレイは一昨年買収だから、買収時に元クレイのデキるエンジニアは外に出てったんだろな。
今のHPEは、人材流出しまくりでマトモなのがほとんど残ってない。20余年前から従業員を大切にしない経営陣が舵取って、払うサラリーケチケチしてきたからな。至極当然の結果。 俺も良くやるバックアップの最中のやらかし、会社の仕事のデーターは4ヵ所にバックアップ取ってある スパコンの保守がこの程度ってのが新鮮な驚き
それともこのメーカーだけがおかしいのかな >>864
社会はこういうもんでしょ
最先端の製品になるほど担当者の感性でメンテしてたりする
逆に864が想像してるようなガチガチにマニュアルが決まっているやつは、市販品を寄せ集めて構築したシステムだからや >>859
アメリカではserverだから。
書き言葉と読み言葉は違う。 >>864
おまえにバックアップ任せたら必ず同じミスをやらかす。 理学系の学会は伸ばすんだよね
工学系の学会は伸ばさない
規格とか決めてるのは工学系の人が主体だから
どちらが正しいかといえば伸ばさない方やろな fgetcでたまたまバッファしてたところから、辻褄合うように同じinodeのファイル書き換えたってこと? スパコンに計算させるためのデータが消えただけかな?
重要な計算結果は各ユーザーが独自保管してるだろうし、意外と大した被害じゃないかも IT音痴はバックアップ取らないし、バックアップは馬鹿でもできる作業だと思っている。 HPEに仕事頼むと、管理名目で部長級の人工を計上してくるからな
しかもやたら単価高いの
でも実際の仕事で、その部長を見かける事はないという トーシロが書いたシェルスクリプトでバックアップログの削除してるってのが異常
しかも同じストレージにバックアップも現在のデータも入ってるっぽいし
それバックアップの意味なくない?
バックアップは別のサーバーにある専用のシステムを使って
削除は一定期間経たないと出来ない設定するのが普通 >>875
HPCってハイパフォーマンスコンピューティングの略だぜ >>849
センスがない
やり直し
#!/bin/ bash
sleep(30)
echo “hello”
を実行して別のターミナルから文字列変えてみたら分かる 削除期間…
12月3日
〜
12月14日〜12月16日
に更新がなかったファイル
14−3=11
16−3=13
!!!!
○・11
○・13
の法則じゃん!
(ごじつけ) >>849
大体同じ事をWSL2のUbuntu上でやったが、こっちでは書き換え後の内容が実行されたぞ。
cpの挙動が違って同じinodeに上書きしてないとかかもな。
ところで実行時の ./test に.shがついてないけどそれで動くの? fopenのwの挙動じゃね
OSやファイルシステムによっても扱い変わりそう 77TBのエロ画像と動画が消失は年の瀬に切ないな… スクリプトなんて実行中にロックされないだろどんなOSでも処理系でも CentOS 7で実行してる
実行結果は一切かわらない
inode番号も一切かわらないことは確認済だからな やばすぎ。京大アホすぎだろ?w
基本中の基本だろうがw
今の京大の院生や研究者は間が抜けているのか?w >>891
まだバックアップにテープカートリッジ使っているの?
昔は使っていたけど今も使っているとはね。 コミュニティ商用OSと称したくせに、商用ソフトにサポートされてない羊頭狗肉 ■ このスレッドは過去ログ倉庫に格納されています