X



【IT】スパコンのバックアップ機能に不具合 約77TBのデータが消失 京都大学 [凜★]
レス数が900を超えています。1000を超えると表示できなくなるよ。
0001凜 ★
垢版 |
2021/12/29(水) 05:18:01.21ID:VgHSOGRP9
■京都大学(2021年12月28日)

2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.

皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.

今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.

★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)

障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html

★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.

日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)

★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.

ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.

一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.

※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html
0873ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:20:48.57ID:ps+tI/+A0
fgetcでたまたまバッファしてたところから、辻褄合うように同じinodeのファイル書き換えたってこと?
0874ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 10:34:37.01ID:B4lqKmfp0
スパコンに計算させるためのデータが消えただけかな?
重要な計算結果は各ユーザーが独自保管してるだろうし、意外と大した被害じゃないかも
0877ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:31:50.86ID:RsnwqSqY0
HPEに仕事頼むと、管理名目で部長級の人工を計上してくるからな
しかもやたら単価高いの

でも実際の仕事で、その部長を見かける事はないという
0878ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:32:00.61ID:Y6CzUf6k0
トーシロが書いたシェルスクリプトでバックアップログの削除してるってのが異常
しかも同じストレージにバックアップも現在のデータも入ってるっぽいし
それバックアップの意味なくない?

バックアップは別のサーバーにある専用のシステムを使って
削除は一定期間経たないと出来ない設定するのが普通
0881ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 11:50:54.68ID:S5bQFpip0
>>849
センスがない
やり直し

#!/bin/ bash
sleep(30)
echo “hello”

を実行して別のターミナルから文字列変えてみたら分かる
0882ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 12:41:13.97ID:eU4EDzTC0
削除期間…
12月3日

12月14日〜12月16日
に更新がなかったファイル
14−3=11
16−3=13

!!!!

○・11
○・13
の法則じゃん!
(ごじつけ)
0883ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 12:55:49.26ID:lw18+ATs0
>>849
大体同じ事をWSL2のUbuntu上でやったが、こっちでは書き換え後の内容が実行されたぞ。

cpの挙動が違って同じinodeに上書きしてないとかかもな。

ところで実行時の ./test に.shがついてないけどそれで動くの?
0888ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 15:20:22.37ID:J50gN6aV0
20年の研究が水の泡だな。
0890ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:42:31.45ID:Mfp0yrv10
てすとん
0891ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:43:36.54ID:Mfp0yrv10
CentOS 7で実行してる
実行結果は一切かわらない
inode番号も一切かわらないことは確認済だからな
0892ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 19:46:22.90ID:/2g0xyhC0
やばすぎ。京大アホすぎだろ?w
基本中の基本だろうがw
今の京大の院生や研究者は間が抜けているのか?w
0897ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:00:14.89ID:Px38U/tt0
日本ってこういうPC関係に世界から比べて滅茶苦茶弱いよな
世界中からアタックされたり色んな不具合出たり、訳分からん
0902ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:18:43.20ID:GoghGJPU0
>>896
go to hell
が出てるということは変更後の内容が実行されてる。
…ってごめんごめん最初から同じ事言ってたわけか。
記事とかで出てる振舞いのとおりだと検証されてるってわけね。
0903ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:23:54.29ID:Mfp0yrv10
ちがう

echo で hello world が表示されてる
つまり実行されてるスクリプトはかわってない

goto hell が表示されてるのは
cat でファイルの内容が置き換わったことが観察できる

つまりファイルの内容が置き換わっても
実行されてるスクリプトはかわらない
0904ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:35:11.01ID:GoghGJPU0
>>902 >>903
ん。そのとおり。重ねてごめん。
このgotohellはcatの出力で、本命はその後のhello worldか。

bashがどれくらいスクリプトを先読みするかバッファの設定とか?
0905ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:43:31.62ID:GoghGJPU0
ググると幾つも情報はあるから、実行中書き換えが起きる環境があることは間違いないんだが。
起きない環境か設定もあるってことかな。

ttps://qiita.com/kitsuyui/items/d0048eeaa50293a92a60
0906ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 20:49:53.12ID:Px38U/tt0
>>901
規模は違うけど一緒だよ
そもそも、日本はハードはいいもの作ってるけどプログラム系は世界から100周は遅れてる
だから、不具合連発してみたりデータが簡単に消失したりするのさ
同じ人間が作るものでこうまでボロボロなのも珍しい、自前で何も出来てないしね
0907ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 21:12:54.15ID:lVIsRYJu0
>>903
だよねえ
0908ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 21:23:21.88ID:GoghGJPU0
ちょっと古いbashだとスクリプト内容をバッファに入れてそれを元に実行するから、小さいスクリプトは実行開始時の内容のまま実行される。

2017.05時点の最新版では、ディスク上のスクリプトファイルが変更されるとその内容に追随して適切な行から実行再開する。

…ってことらしい。
下記のA7によると。

ttps://askubuntu.com/questions/484111/can-i-modify-a-bash-script-sh-file-while-it-is-running
0909ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 22:03:36.77ID:Mfp0yrv10
[hoge ~]$ bash --version
GNU bash, バージョン 4.2.46(2)-release (x86_64-redhat-linux-gnu)
Copyright (C) 2011 Free Software Foundation, Inc.
ライセンス GPLv3+: GNU GPL バージョン 3 またはそれ以降 <http://gnu.org/licenses/gpl.html>;

This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

気が向いたら5.x入れてみるわ
0911ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 22:20:46.81ID:hl5e2Kru0
>>174
UNIXのコマンドって危ないのが多いからな。
renとrmとか、hostnameでホスト名確認してしようとしてタイプミスでホスト名変えちゃったとか、crontab -eしようとして隣のr打っちゃったとか、運用やってるとよく聞く話。
0912ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 22:22:23.68ID:Mfp0yrv10
[hoge ~]$ bash --version
GNU bash, バージョン 5.1.0(1)-release (x86_64-pc-linux-gnu)
Copyright (C) 2020 Free Software Foundation, Inc.
ライセンス GPLv3+: GNU GPL バージョン 3 またはそれ以降 <http://gnu.org/licenses/gpl.html>;

This is free software; you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

やってみたがぜんぜんかわらんわ

https://dotup.org/uploda/dotup.org2684292.log
0913ニューノーマルの名無しさん
垢版 |
2021/12/30(木) 22:27:50.67ID:Mfp0yrv10
やはりインタープリタでずっと字句解析と構文解析やりなおしてるとか
とても思えない
0915ニューノーマルの名無しさん
垢版 |
2021/12/31(金) 03:29:46.19ID:ruJmukZz0
既に今回の実行中の上書きを再現検証している人がいるね

vim で上書き 再現せず
cp で上書き 再現した
tar で上書き 再現せず

Linux の dash(/bin/sh)、zsh では再現
FreeBSD の sh/bash ではバッファリングの関係で 512 バイト目以降が読めた
UNIX System-V だと再現する

bash はスクリプト実行時に一括読み込みを行っておらず、逐次でファイルを読み込んでいる為、同じ i-node のファイルを続きから読み込む。既に開かれたファイルディスクリプタは i-node が異なる場合は古いファイルから読み続けられる為、再現しない。

これらは bash がうんぬんというよりも、ファイルシステムを I/O する際にそれがアトミックであるかどうか、というだけの話。同じ様な事をしているのであれば、どのシェルや言語処理系でも起きうる。

この問題を回避しつつスクリプトを入れ替えるのであれば、スクリプトが停止している事を確認するか、 mv を使うか、rm & cp を使うか、install コマンドを使うか

bash スクリプトの実行中上書き動作について
https://zenn.dev/mattn/articles/5af86b61004bdc
0920
垢版 |
2021/12/31(金) 22:30:01.78ID:WXpje3ar0
これからはクラウドの時代なんですよ
0921
垢版 |
2021/12/31(金) 22:31:08.67ID:WXpje3ar0
>>919
俺が使ってるマイクロSDカードの容量が1TBだから俺的にもたいした事無い
0922ニューノーマルの名無しさん
垢版 |
2021/12/31(金) 23:15:39.55ID:v4Afd6tF0
米国による陰謀なの?
0925ニューノーマルの名無しさん
垢版 |
2022/01/01(土) 07:38:00.57ID:C5+3yT500
>>923
わかんないよ
スパコンで750万年かけて計算した答えが「42」だって事もあるかも知れない
0929
垢版 |
2022/01/01(土) 11:05:07.80ID:58u797QV0
>>928
俺も7の段はちょっと怪しい(^^)
0934ニューノーマルの名無しさん
垢版 |
2022/01/01(土) 21:51:18.81ID:L06I7E9k0
システム構築をベンダー任せにしてBCP対策を怠った京大の責任でしょ。

だからHPが「100%うちの責任」って言う必要ないでしょ。

京大の情報システム担当のレベルもたかが知れてるとわかったわ。
0935ニューノーマルの名無しさん
垢版 |
2022/01/01(土) 21:53:47.56ID:HseCCTgo0
>>1
中国系の会社?経営者は何人? 日本ヒューレット・パッカード合同会社
0937ニューノーマルの名無しさん
垢版 |
2022/01/01(土) 23:54:57.30ID:SGPEWcCd0
別に京大やHPを擁護する気はないがスパコンの話でバックアップとかBCPとか言ってる奴はちょっとずれてるぞ
Lustreは普通/homeとかのwork領域に使うもんでフルバックアップを取ったりはしない
>>1の最後でもユーザが自分でバックアップ取れって書いてあるだろ
0938ニューノーマルの名無しさん
垢版 |
2022/01/01(土) 23:57:13.61ID:o8xTmNUv0
これ、ノーベル賞級の研究データが消失してたらどうすんの?
京大といえば、日本最高峰の大学なのに
0939ニューノーマルの名無しさん
垢版 |
2022/01/02(日) 01:22:18.30ID:1oDDDdFc0
>>1
やっぱり関西って何をやってもダメだな
0942ニューノーマルの名無しさん
垢版 |
2022/01/02(日) 16:18:25.14ID:hQzDCSMY0
マズいぞ…
0943ニューノーマルの名無しさん
垢版 |
2022/01/02(日) 16:52:30.82ID:hQzDCSMY0
あきまへん。
0945ニューノーマルの名無しさん
垢版 |
2022/01/02(日) 20:34:59.03ID:hs76QF0z0
あーあ。
0946
垢版 |
2022/01/02(日) 23:35:03.03ID:D3dMCgic0
>>944
つまり7の段の計算を間違えたって事だな
レス数が900を超えています。1000を超えると表示できなくなるよ。

ニューススポーツなんでも実況