【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学 [凜★]
■ このスレッドは過去ログ倉庫に格納されています
■京都大学(2021年12月28日)
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html 京大医学部が731部隊の主力だったという事実は永久に消えないからな この程度のものさえ扱えないのが京都大学。廃校してしまえよ。京都は大学が多いし一つくらい減っても誰も気にしない スパコンなんて計算に使う一時的な物しか置いてない
データセンターとは違うのだよ 毛が気が狂ってやった中華大革命に比べればこれくらいの情報なんぞ屁でもない >>4
京都大学のせいなのか?
文章みると納入会社側のバグじゃね? iPS細胞がどれだけ成果を上げようが
京大医学部が主力を成した731部隊が奪った命は帰らないんだよ
罪は消えないんだよ、永遠に こんなことありえるのか?
京大のスパコンはRAIDすら組んでないのか? データ復旧サービスになおして貰えば大丈夫、メルコとかやってるだろ これは米帝による日本破壊工作
京都にも原爆投下するつもりだった鬼畜米軍 スパコンでも
やってることはログ消す運用スクリプトのrm -rf に渡す引数が間違ってて
親ディレクトリまるごと消えた
みたいな新人SEレベルのミスくさい 俺の貴重な90年代円光物お気に入りライブラリが、、、😭 バックアップの意味!
どうせ古いハード使い続けてんだろ 77テラバイトって
64Gのメモリーカード
何枚分なんすか? >>4
京大の職員じゃなく管理してるのはHPだよ
予算がないからいいかげんなシステムになる
理研の富嶽よりよほど稼働してるのに富嶽の予算の1/10でもまわしてやればこんな事は起きなかった >>18
こういうのってたいがい免責条項があるんじゃね?
逆にちゃんと補償規定とかあるんかな 使えるグループは限定されるから、容量の割には影響範囲は狭い、クローズされた世界だから備忘録代わりに使っている先生もちらほら、頭の中にだいたい残ってるから ミラーリングはバックアップではないとあれほど言われてるのに
ファーストサーバでも大事件だったろ >>13
RAIDはストレージの故障を担保するもの
バグありプログラムで消失したデータは無力 「バックアップを自動的に取る(環境依存でいろいろいじっていらんファイル消したりする)プログラムが誤作動して
ユーザが使う領域にあるファイルを論理的に消してしまった」
ってことなんだろうから、パソコンの大先生が「ぼくのいえのこわれないハードディスク」
講座開いてもどうにもならん ,と.がいかにも理系の文面だね
俺は日本語の時は全角使ってたが あー、うちの会社でもこの前あったわ
バカがルートディレクトリでrm -rf実行しちゃったんだな >>13
RAIDはアベイラビリティの機能であってデータの保護ではないぞな
今回の場合は普通に消える スパコーン!( ・`ω・)⊂彡☆))Д´)フガクッ! 京都大学もレベルが低いね。
日本のITってゴミレベルだよな。 スパコンのデータ復旧サービスってあるのかな?
あったとして極秘情報があったら業者に依頼しにくいよな
で、なんで謝罪してるん?誰かに影響あるん? ミラーしてなかったのかと言ってる馬鹿なヤツがこういう取り返しのつかないエラー起こすんだよなぁ
ちゃんと記事と報告書読んだのかよ 俺の計算結果が10TB飛んだ!
謝罪と賠償を要求シル! こういう作業はちゃんと手順書用意して二人で指差し声出し確認しながら進めないといけないのに >>27
日本て防衛費に関しても 騒ぐだけ騒いで予算がつかなかったりしてたし
普通に大学研究から素直に出さない感じ?
米国では普通に大学参加なのに HPの説明書見たら、ほぼ思った通りで草
○ずほ銀行レベルの下請けがやってそう
https://www.iimc.kyoto-u.ac.jp/services/comp/pdf/file_loss_insident_20211228.pdf
バックアップスクリプトには、find コマンドにより 10 日以上古いログファイルを削除する処
理が含まれています。スクリプトの機能改善と合わせて、find コマンドの削除処理に渡す変数名
を視認性・可読性を高めるため変更いたしましたが、この修正したスクリプトのリリース手順に
考慮不足がありました。
bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ
る副作用を認識できておらず、実行中のスクリプトが存在している状態でスクリプトの上書きに
よりリリースしてしまったことで、途中から修正したシェルスクリプトの再読み込みが発生し、
結果的に未定義の変数を含む find コマンドが実行されてしまいました。この結果、本来のログ
ディレクトリに保存されたファイルの削除をする処理ではなく、/LARGE0 のファイルを削除し
てしまいました。
(※たぶん変数が空になってしまったので、実質的にrm -rf /が走った) 謝罪文に”悪いのは”(日本ヒューレット・パッカード合同会社製)なんてわざわざ入れる?
みっともない。 どう見てもLinuxのスクリプトの挙動を理解してない新人の問題
2人体制で指さし確認とかミラー云々の話はお門違い
3 ファイル消失が発生した原因
バックアップスクリプトには、find コマンドにより 10 日以上古いログファイルを削除する処 理が含まれています。スクリプトの機能改善と合わせて、find コマンドの削除処理に渡す変数名 を視認性・可読性を高めるため変更いたしましたが、この修正したスクリプトのリリース手順に 考慮不足がありました。
bash は、シェルスクリプトの実行中に適時シェルスクリプトを読み込みます。この挙動によ る副作用を認識できておらず、実行中のスクリプトが存在している状態でスクリプトの上書きに よりリリースしてしまったことで、途中から修正したシェルスクリプトの再読み込みが発生し、 結果的に未定義の変数を含む find コマンドが実行されてしまいました。この結果、本来のログ ディレクトリに保存されたファイルの削除をする処理ではなく、/LARGE0 のファイルを削除し てしまいました。 >>51
その3行書くくらいなら文系にわかりやすく3行で説明してくれ >>56
なんでしてないんだろ
この規模なら外部保管してそうだけどな >>65
俺はわかるよ大体。
たとえは違うがゴミ箱空にするつもりがcドライブフォーマットしたようなもんだろ多分。
会社で文系に説明するなら1の
文章は分かりづらい。 >消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
ということは、本来は「バックアップ先のディレクトリ」の下をfindのオプションでひっかけて
10日以上更新してなかった古いバックアップを探して、そのファイル名を rm に渡す
みたいなスクリプトだったのが
探すディレクトリのパラメータが空になってしまったため
「ホームディレクトリの下全部を探して10日以上更新してなかったファイルを全部消す」
化け物と化した、みたいな話か まあ、国民の税金で蓄えたデータ、それも超重要データを外注に晒す京大の無神経ぶりが
招いた状況ということかな。悪く言えば。 >>64
その3行を2行にまとめて、後で教えてくれ w >>10
おい五毛、80年前の犯罪よりも、今の中国の殺戮を止めろよ。オマエが五毛じゃなかったら、習近平はクズのプーさんって書き込んてみろ。 >>69
京大は、頭に入れるから、無駄遣いしないだろう 自国でソフト作る脳がないからこういうことになる
わざとやられてるかもしれないんだぞ なぁ…これスクリプト見ないとなんとも言えんのだろうけど
「10日以上古いログファイル」
がゼロ件の時にも同じ事にならない? 教授が亡くなったり
ファイルが消されたり
なんか口兄われてんな >>61
お役所だから。
データ消失なんて大学はなんとも思ってないよ。ただうちの責任じゃないって事だけを強調しておきたいだけ。裁判になれば大学側の責任もある程度認められるからそれを見越した対応でもある。 バックアップ性能を向上させようとしたら、プログラムミスで本来削除しちゃいけないものを消しましたってことかな。 #!/bin/sh
:
# バックアップ世代管理
rm -rf /*
:
# 正常終了
exit 0 国の大切なデータも電子化すれば意図的に一瞬で消せるな >>1
HPの報告書わらた
ミス対応でこんな事普通は書けないぞ
京大の担当者なめられてるな
> 一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します. スパコンで消えて困るファイルなんて実行中の計算関係のファイルくらいでしょ tarコマンド ミスったか?
引数がややこしいからな >>60
この説明が本当なら、別のHDD用意すれば今すぐにでもバックアップ再開出来るだろうに 新人の頃の俺、相対パスで書かれた削除バッチを見て、怖くて絶対パスに書き換えたことあったな
削除ってこえーよな、やった方もやられた方も気の毒だ
削除はこういうの怖いからDBのレコードすら論理削除でお伺いしてしまうわ
スクリプトなりコードなり組み替えてく中で、カレントディレクトリの位置を変えちゃった状態で相対的にファイル消したりしちゃったのかな?
可哀想 >>92
まあシミュレーションで吐き出したデータだから
またバッチを走らせれば取り戻せるよ
時間はロスってしまうが、本人は寝て待てばいいだけ ■ このスレッドは過去ログ倉庫に格納されています