X



【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学 [凜★]

■ このスレッドは過去ログ倉庫に格納されています
0001凜 ★
垢版 |
2021/12/29(水) 05:18:01.21ID:VgHSOGRP9
■京都大学(2021年12月28日)

2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.

皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.

今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.

★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)

障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html

★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.

日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)

★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.

ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.

一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.

※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
0796ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 18:06:01.00ID:bXeuBYPA0
>>795
担当者がビビり倒して勢いに任せて書いちゃったのをそのまま載せた感があるな
0798ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 18:18:50.40ID:C7eyK7qM0
>>47
計算機シミュレーションだと結論だけ残せばいい場合もあるけど、
そうじゃなくて途中も残すとすごいサイズになりそうだ。
0801ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 18:55:34.69ID:10i+XoE90
>>796
読む人によって感じ方が違いそう
ストレージ関係者> まだ独自スクリプトでバックアップなんてしてんの?
高可用性システムのSIer> 普通バックアップサービス止めてからやるだろ!SLAとか大丈夫なんか?
低可用性システムのSIer> bashのこんな仕様知らんかったわー、あぶねー、これは仕方なし
スパコンのSIer> あーw やってもうたかwま、次は気をつけろよ
0803ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:02:53.94ID:79cIeF/20
HPとHPEの違いもわからない。
クレイがHPE傘下になったことも知らない。
埋まった方のスレはそんなんばっかり。
前提条件を知らずにレスするなよと言いたい。
0804ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:08:22.84ID:C7eyK7qM0
HPEって、SSDでなにかやらかしてたような
0805ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:09:05.10ID:OtXTglb40
スパコンにだけこういう計算に使うデータが入ってたなら困ることになる

https://agupubs.onlinelibrary.wiley.com/doi/full/10.1029/2018JE005579

このデータは復元したデータになる

アポロの乗組員が月の地表温度や地中温度を計測する機器を月に仕込んで
地球に発信させて採取したデータになる

データの特徴

 @ 管理が杜撰でテープがボロボロになってデータもボロボロになってた データの復元が大変だった
 A アポロの乗組員が計量する条件をちゃんと考えずに機器を設置したので(考えたらず)、ずっと温度があがる計量結果になってた

頭がいいやつは、データが消えようが、データがくさってようが
それをちゃんと最大限利用して結果をだす

わかった?
0806ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:13:03.86ID:3dS994480
誤動作じゃ無くて正しく動作した結果だな
バックアッププログラムはプログラミングされた通りに動作したろ
0807ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:13:46.30ID:+M5pBjoL0
orz=3,/LARGE0
0810ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:22:29.16ID:OQgXAA820
>>109
それは京大のデータセンターが学内に出したリリース。
0811ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:28:27.23ID:3vMKJXvY0
これ、下手にこじれるとヒューレット・パッカードのエンタープライズ部門の日本総撤退の可能性すらある。
自社開発のサーバーの運用すら出来ないSEしかいないとなるとな。
0812ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:28:28.03ID:10i+XoE90
>>809
今というかもうかなり昔からあるが、大規模システムのテープはチェンジャータイプのものだよ
テープを一度に大量にセットして、LVMの様に論理管理で大容量ストレージを実現する
システムから見る使い勝手はハードディスクとほぼ変わらない
カセットを一個一個セットしてバックアップするという運用ではないよ
0817ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 19:46:42.37ID:L9y9A3Sf0
>>793
それくらいしか善処の仕方もないからね。


あまり変わらんって所だけはNOだよ。

可能性の目減りは確定だし、
士気の低下も長期視点においては(積もることで)致命傷になる。
(当然、積もる様な慣習のある場合は致命傷も確定。)
0819ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 20:29:52.89ID:YWqt5jWr0
ワロタwwww
0820ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 20:46:31.55ID:vZJpA8GR0
スケジューラとかクーロンでキックしてサーバーで動かすときに
不具合で環境変数が読み込めなくなって誤作動が起きた、なんて話はよく聞くけど

プロが作るシェルスクリプトは普通は変数のチェックくらい入れるから
消す前にエラーで動かないように作る
0821ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 20:48:52.33ID:V0kdu8gC0
俺なんて何を保存してたか覚えてない40GBの外付けHDDが
ご臨終になっただけでもショックなのに。
0822ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 20:51:45.03ID:Cm3AKwr50
77 TB ってたいしたことないね昔だったらすごいけど今は8 TB が結構安いので10台あればこれを超える1万3000円ぐらいだから10台で13万だ
ただバックアップするのは容易じゃないぞ最低でもこのこれと同じ容量のものが別に存在しなきゃならないんだ
0823ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 20:53:54.53ID:tNzeAkVU0
昔hpのサーバのSmartArrayで酷い目に遭った事がある
RAIDバッファが一杯になった時の処理にバグがあって、管理領域をデータで上書きしちゃってディスクに出鱈目のデータを書き込んでしまうというものだった
0829ニューノーマルの名無しさん
垢版 |
2021/12/29(水) 22:15:51.20ID:vpDTTf4y0
>>822
民生のHDDとサーバ用のHDDやらコントローラーを一緒くたにするのはNG

まあでもいくらハードが良くても今回みたいなのはね……
0833ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 01:51:53.86ID:heWkhoHr0
bashがスクリプトを都度読むと言っても、そりゃ実行中のファイルから呼び出すファイルの話だろ
0834ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 01:58:19.32ID:heWkhoHr0
変数参照は""で囲んで空でもひとつの引数として解釈されるようにしとけって話だな
まあ"$@"みたいな罠もあるが
0835ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 02:11:28.41ID:3ncbJz8y0
>>833
いやスクリプトファイルの話。
実行中のスクリプトファイルを他のプロセスが書き換えることが可能なので、ある行までは変更前のスクリプトを実行してたのにそこから先は変更後の内容で継続実行、なんてことが起きてしまうらしい。
0836ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 02:25:24.07ID:K2niYI4L0
京大ちゃん達必死すぎてやべぇわwww
面白すぎて笑えるw

これくらいの事も対処できないんだね
0837ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 02:45:39.14ID:6dhptej40
>>809
だから自動でカートリッジ入れ換えるチェンジャー装置使うのが普通
めちゃめちゃ高いけどな
どんなに安くても数千万円からするし保守費用も年間購入料金の2割はかかる
0839ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 03:19:40.55ID:lVIsRYJu0
>>833
俺もそう思った
0841ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 03:28:50.46ID:Mfp0yrv10
テープライブラリもしらないんか
そんなムダな機械構造使ってるとこなんかないわ

もともとカートリッジに必要なテープ全部入れてる
0842ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 03:40:08.46ID:4L0Sp9zt0
バックアップ手順に、バックアップ作業中に気を付けること、やっちゃいけないことも列記されてるはずなんだけど、
守らなかったんじゃないのか。

HPが自社側の責任と認めているから、バックアップソフトの更新やったのは、HPなのかね。

>>718
HPやらかし多いのか。。。乗り換えたほうがいいんじゃないのかw
0844ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 04:22:22.96ID:Mfp0yrv10
キミラの書いてることすべてが信用できんから自分で確かめてみたわ

----
test.sh
----
#/bin/bash

while true
do
cp ./test_01.sh ./test.sh
cat ./test.sh
echo `date` "hello world"
done

----
test_01.sh
----
#/bin/bash

while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done

----
test_02.sh
----
#/bin/bash

while true
do
cp ./test_01.sh ./test.sh
cat ./test.sh
echo `date` "goto heaven"
done
0845ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 04:22:48.08ID:Mfp0yrv10
実行結果

[hoge~]$ ./test
#/bin/bash

while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:20:28 JST hello world
#/bin/bash

while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:20:28 JST hello world
(延々と同じエコーが続く)


ホント、キミラは口から出まかせでウソばっかりいうのな
0847ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 04:34:48.58ID:jO4KQfPV0
HPさん、リストラし過ぎで人材が残らなかったのか
0849ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 05:01:54.00ID:Mfp0yrv10
#!/bin/bash
実行結果

[hoge~]$ ./test
while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:57:17 JST hello world
#!/bin/bash

while true
do
cp ./test_02.sh ./test.sh
cat ./test.sh
echo `date` "goto hell"
done
2021年 12月 30日 木曜日 04:57:17 JST hello world


シバンをちゃんと書いて
再テストしても結果は同じ
そもそもログインシェルがbashだからな
0850ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 05:11:56.73ID:m8yV2gYD0
LTO使ってなかったのか
0852ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 05:14:58.58ID:e6LYpNZsO
困るよね?
0855ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 06:02:19.45ID:iKMlPVkh0
こんな障害があると
この障害の類似が
無いか確認しろといわれると
面倒くさいな。

rm 変数
の様なコードで
変数がnullじゃないチェック入れてから実行しないといけなくなるのか?
0857ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 06:14:18.01ID:GAo4k7IC0
>>855
スクリプトの開始時にスクリプト自体をファイルロックする。
二重起動の防止にもなる。
0858ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 07:19:40.48ID:yfwK1etI0
>>262
保守リリースを手動でやるってのがないわな
バッチジョブにリリースジョブを作っておいて、その枠組みの中でやる
0862ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 08:35:48.08ID:r6uOh1rt0
>>847
スパコンのクレイは一昨年買収だから、買収時に元クレイのデキるエンジニアは外に出てったんだろな。
今のHPEは、人材流出しまくりでマトモなのがほとんど残ってない。20余年前から従業員を大切にしない経営陣が舵取って、払うサラリーケチケチしてきたからな。至極当然の結果。
0863ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 09:09:45.10ID:SPknTNyh0
俺も良くやるバックアップの最中のやらかし、会社の仕事のデーターは4ヵ所にバックアップ取ってある
0865ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 09:53:55.96ID:526oQLII0
オレのエロ動画全部飛ぶレベルやんけ
やべーわ
0866
垢版 |
2021/12/30(木) 09:54:35.90ID:ibHrta0h0
OSはもちろんTRONだよね
0868ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 09:58:51.92ID:dQwa+oYe0
>>864
社会はこういうもんでしょ

最先端の製品になるほど担当者の感性でメンテしてたりする

逆に864が想像してるようなガチガチにマニュアルが決まっているやつは、市販品を寄せ集めて構築したシステムだからや
0869ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:04:11.03ID:pGk/XXa50
バカはバックアップを複数作れないの法則
0872ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:14:52.94ID:j2evqKkn0
理学系の学会は伸ばすんだよね
工学系の学会は伸ばさない

規格とか決めてるのは工学系の人が主体だから
どちらが正しいかといえば伸ばさない方やろな
0873ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:20:48.57ID:ps+tI/+A0
fgetcでたまたまバッファしてたところから、辻褄合うように同じinodeのファイル書き換えたってこと?
0874ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:34:37.01ID:B4lqKmfp0
スパコンに計算させるためのデータが消えただけかな?
重要な計算結果は各ユーザーが独自保管してるだろうし、意外と大した被害じゃないかも
0877ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:31:50.86ID:RsnwqSqY0
HPEに仕事頼むと、管理名目で部長級の人工を計上してくるからな
しかもやたら単価高いの

でも実際の仕事で、その部長を見かける事はないという
0878ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:32:00.61ID:Y6CzUf6k0
トーシロが書いたシェルスクリプトでバックアップログの削除してるってのが異常
しかも同じストレージにバックアップも現在のデータも入ってるっぽいし
それバックアップの意味なくない?

バックアップは別のサーバーにある専用のシステムを使って
削除は一定期間経たないと出来ない設定するのが普通
0881ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:50:54.68ID:S5bQFpip0
>>849
センスがない
やり直し

#!/bin/ bash
sleep(30)
echo “hello”

を実行して別のターミナルから文字列変えてみたら分かる
0882ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 12:41:13.97ID:eU4EDzTC0
削除期間…
12月3日

12月14日〜12月16日
に更新がなかったファイル
14−3=11
16−3=13

!!!!

○・11
○・13
の法則じゃん!
(ごじつけ)
0883ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 12:55:49.26ID:lw18+ATs0
>>849
大体同じ事をWSL2のUbuntu上でやったが、こっちでは書き換え後の内容が実行されたぞ。

cpの挙動が違って同じinodeに上書きしてないとかかもな。

ところで実行時の ./test に.shがついてないけどそれで動くの?
0888ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 15:20:22.37ID:J50gN6aV0
20年の研究が水の泡だな。
0890ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:42:31.45ID:Mfp0yrv10
てすとん
0891ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:43:36.54ID:Mfp0yrv10
CentOS 7で実行してる
実行結果は一切かわらない
inode番号も一切かわらないことは確認済だからな
0892ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:46:22.90ID:/2g0xyhC0
やばすぎ。京大アホすぎだろ?w
基本中の基本だろうがw
今の京大の院生や研究者は間が抜けているのか?w
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況