【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学 [凜★]
レス数が900を超えています。1000を超えると表示できなくなるよ。
■京都大学(2021年12月28日)
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html 日本ってこういうPC関係に世界から比べて滅茶苦茶弱いよな
世界中からアタックされたり色んな不具合出たり、訳分からん >>896
Cシェルか何かか?
もう忘れたけど懐かしいなぁ。
京大ってUnixなのか? >>897
iPhoneを革新だと言えば騙されて普及するぐらい日本人はみなIT音痴だからな。 >>896
go to hell
が出てるということは変更後の内容が実行されてる。
…ってごめんごめん最初から同じ事言ってたわけか。
記事とかで出てる振舞いのとおりだと検証されてるってわけね。 ちがう
echo で hello world が表示されてる
つまり実行されてるスクリプトはかわってない
goto hell が表示されてるのは
cat でファイルの内容が置き換わったことが観察できる
つまりファイルの内容が置き換わっても
実行されてるスクリプトはかわらない >>902 >>903
ん。そのとおり。重ねてごめん。
このgotohellはcatの出力で、本命はその後のhello worldか。
bashがどれくらいスクリプトを先読みするかバッファの設定とか? ググると幾つも情報はあるから、実行中書き換えが起きる環境があることは間違いないんだが。
起きない環境か設定もあるってことかな。
ttps://qiita.com/kitsuyui/items/d0048eeaa50293a92a60 >>901
規模は違うけど一緒だよ
そもそも、日本はハードはいいもの作ってるけどプログラム系は世界から100周は遅れてる
だから、不具合連発してみたりデータが簡単に消失したりするのさ
同じ人間が作るものでこうまでボロボロなのも珍しい、自前で何も出来てないしね ちょっと古いbashだとスクリプト内容をバッファに入れてそれを元に実行するから、小さいスクリプトは実行開始時の内容のまま実行される。
2017.05時点の最新版では、ディスク上のスクリプトファイルが変更されるとその内容に追随して適切な行から実行再開する。
…ってことらしい。
下記のA7によると。
ttps://askubuntu.com/questions/484111/can-i-modify-a-bash-script-sh-file-while-it-is-running [hoge ~]$ bash --version
GNU bash, バージョン 4.2.46(2)-release (x86_64-redhat-linux-gnu)
Copyright (C) 2011 Free Software Foundation, Inc.
ライセンス GPLv3+: GNU GPL バージョン 3 またはそれ以降 <http://gnu.org/licenses/gpl.html>
This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
気が向いたら5.x入れてみるわ >>174
UNIXのコマンドって危ないのが多いからな。
renとrmとか、hostnameでホスト名確認してしようとしてタイプミスでホスト名変えちゃったとか、crontab -eしようとして隣のr打っちゃったとか、運用やってるとよく聞く話。 [hoge ~]$ bash --version
GNU bash, バージョン 5.1.0(1)-release (x86_64-pc-linux-gnu)
Copyright (C) 2020 Free Software Foundation, Inc.
ライセンス GPLv3+: GNU GPL バージョン 3 またはそれ以降 <http://gnu.org/licenses/gpl.html>
This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.
やってみたがぜんぜんかわらんわ
https://dotup.org/uploda/dotup.org2684292.log やはりインタープリタでずっと字句解析と構文解析やりなおしてるとか
とても思えない 既に今回の実行中の上書きを再現検証している人がいるね
vim で上書き 再現せず
cp で上書き 再現した
tar で上書き 再現せず
Linux の dash(/bin/sh)、zsh では再現
FreeBSD の sh/bash ではバッファリングの関係で 512 バイト目以降が読めた
UNIX System-V だと再現する
bash はスクリプト実行時に一括読み込みを行っておらず、逐次でファイルを読み込んでいる為、同じ i-node のファイルを続きから読み込む。既に開かれたファイルディスクリプタは i-node が異なる場合は古いファイルから読み続けられる為、再現しない。
これらは bash がうんぬんというよりも、ファイルシステムを I/O する際にそれがアトミックであるかどうか、というだけの話。同じ様な事をしているのであれば、どのシェルや言語処理系でも起きうる。
この問題を回避しつつスクリプトを入れ替えるのであれば、スクリプトが停止している事を確認するか、 mv を使うか、rm & cp を使うか、install コマンドを使うか
bash スクリプトの実行中上書き動作について
https://zenn.dev/mattn/articles/5af86b61004bdc >>919
俺が使ってるマイクロSDカードの容量が1TBだから俺的にもたいした事無い 77TBなんてスパコンにとってはあっという間の計算結果データ作成量なんじゃ… >>919
屁だと思って肛門を開放したら実が出ちゃったくらいなもん >>923
わかんないよ
スパコンで750万年かけて計算した答えが「42」だって事もあるかも知れない ん?
機能の不具合じゃなくてオペレーションミスだじゃないのか? ああそうか。
情報としては知ってても原典読んではいない人が大半なんだな。
失敗した。 システム構築をベンダー任せにしてBCP対策を怠った京大の責任でしょ。
だからHPが「100%うちの責任」って言う必要ないでしょ。
京大の情報システム担当のレベルもたかが知れてるとわかったわ。 >>1
中国系の会社?経営者は何人? 日本ヒューレット・パッカード合同会社 別に京大やHPを擁護する気はないがスパコンの話でバックアップとかBCPとか言ってる奴はちょっとずれてるぞ
Lustreは普通/homeとかのwork領域に使うもんでフルバックアップを取ったりはしない
>>1の最後でもユーザが自分でバックアップ取れって書いてあるだろ これ、ノーベル賞級の研究データが消失してたらどうすんの?
京大といえば、日本最高峰の大学なのに >>944
つまり7の段の計算を間違えたって事だな レス数が900を超えています。1000を超えると表示できなくなるよ。