【arrowhead】東証、システム障害の原因を特定「自動切り替えできない設定値になっていた」 [記憶たどり。★]
■ このスレッドは過去ログ倉庫に格納されています
https://www.itmedia.co.jp/news/articles/2010/06/news063.html
東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、
4日中に修正したと発表した。
障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。
メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。
https://image.itmedia.co.jp/news/articles/2010/06/l_yx_tos.jpg
東証のニュースリリースより
arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。
1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。
調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。
稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
1日の障害では、東証の全取引が終日停止した。 なんでちゃんとテストしないのか 学校でと避難訓練とかしてるよ 誰か教えてあげて アホかよw
実際に故障を模してチェックしていなかった
ってことだわな。 現場猫のIT版だな
他の人が設定チェックしたと思ったから
自分はチェックせずOK出した よくわかんねえが、男女関係で言ったらメインの男に捨てられたオンナが
183センチでしか設定してなかったんで、せっかくの174.6センチの
高学歴で家柄良すぎで文京区の大名屋敷の跡地の古いが広い家に住んでて
両親大学教授でイケメンでスタイルよくて、超一流企業勤務でそろそろ
管理職各停で人望もある好青年の求愛をことわっちまう的な? >>10
何を今更
Cocoaで散々見てるだろ
しっかり金入れない体質から来てるんだろなぁ 切り替え忘れが悪いんじゃなくて、切り替え忘れを検知する仕組みが必要だね Linux だと panic_on_unrecovered_nmi かな
デフォルト 0 の罠パラメーター >>10
本当これ
普通に考えたらメモリが壊れたときの試験くらいやるだろう 納品時チェックでは動いたって書いてあるんだから後から誰かが弄ったんじゃないの? こういうのって定期的にチェック入れるもんじゃないの?
稼働前にテストしたっきりで以後ずっとノーチェックだったのかな ノーテストで本番リリースか、さすが富士通クオリティ。 えー
テストしてないの
他にもしてないテストあるだろう
正直に言いなさい >>25
稼働させたら後は知らなーいくらいのノリだったんだろ
定期的に障害発生しても問題ないかのテストを行うべきだったね >>23
メモリのフォールトインジェクションは難しいよ
ハード開発ならまだしも SI ではやってないケース多いと思う >>31
難しいからという理由で試験をしないの?
システム開発するだけの能力がないだけじゃん >>17
私の推測では
テストするために設定値を書き換えて
テスト終了後に元に戻して無かったんじゃないかな? >メモリ故障が原因の障害パターンが発生
想定外のパターンが発生?
あらゆる障害を想定しているんじゃないんだな >>36
当たり前だろ
ログの一文からしか分からないケースだってあるぞ >>39
heartbeatはやってて、止まってても切り替える設定外れてたのかと >>29
設定値があるって事はテストしてるはず
つまり想定されてた障害のケース >>41
設定値を直したら切り替わったんだこら想定内だよ どうして自動切り替えできない設定値になっていたのかが書いてない 結局富士通か。あまりタイトな設定値にすると誤作動するから設定値弄ってたんだろw 切り替わる設定はした
だが、そのあと設定値をいじくって切り変わらなくなってた とりあえず、取引できなかった1日分の金利を補償して むしろ毎週自動的に設定値が変化してプライマリが変わるぐらいの設計のほうが正しいってこと?
バックアップ機に切り替わったとしても1日の取引に耐えられるかの保証はないわけで ハートビートは見てましたが心停止したら蘇生せずにそのまま死んでいただく仕様でした
自己責任ですのでういあー自民党 まあ製品のバグのような
自己申告で異常をHA系に通知とか
そんな構造に普通はせんわな >>51
これもあるあるだな。
フェイルバックするの面倒だし 設定ミスにしちゃってるけど、実際の原因を隠してるのかもよ。
あのIT会社は嘘つくからなぁ。 よくわからんが完全死亡なんかじゃなくてよかったよかった 納入時にパラメーター設定確認しなかった奴が悪いだろ 実に日本らしい
原発の予備電源ですらアノザマでしたからね >自動切り替えできない設定値
いやケアレスミスでした、ごめんなさいで、
3度目のシステム障害が起こる。
問題はなんでケアレスミスが起こったかだろ。 >>70
こういうのはメンテナンス時に設定値いじくったりする >>61
普通はそう
少なくとも運用でそうしてるはず 色々な事態を想定して事前チェックしているんじゃないのか?
仮にも世界の主要市場の1つだというのに情けない >>71
_, ,_
( ~ ,_っ~) 全くだw
' それがイジられたのがいつか
ログ見りゃわかるだろ?
ミスなのかサボタージュなのか
さっさと調べろ馬鹿 >>1
>>稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
じゃなんで設定が変わってたんだ? 実稼働時の設定が正しいかチェックする仕組みすら無いとか。。。。でホントの原因は? 誰かが切り替わらないように設定をこっそりイジってたって事じゃねえの? >>31
1日2兆円以上処理する、日本経済の心臓やで?
メモリー交換なんてホストコンピューターなら無停止で交換できるレベルだぞ?
出きんないんだったら、ホストコンピューターからリプレースするんじゃねーよ。 記憶装置のバックアップシステムはSANとかあるけど
メモリのバックアップシステムとかないの? >>1
外注丸投げのバカどもww
なんの為のGUIなんだよw
いつまでもCUIで「俺ってすげぇぇだろ?」ってバカやってるからこうなる
システム変数を見える化しときゃいいだけのこと
数日で出来るだろ
それすら構築できないバカどもw でもこれで1日止めるのはおかしいだろ
バックアップに切り替わらないなら切り替わらないで、バックアップを手動で切り替えて
使えないもんなのかね これだけで丸1日とは。
調査とはいえ、半日後に復旧出来なかったのにも問題あるな。 これでも東証は賠償請求しないって本気なの?
こんなのが許されるなら再発防止なんて無理だよ。
富士通全力空売りしてんだからはよ賠償請求せーや 日本は起こらない前提主義だからな
こういったものは想定外になる よーわからんのは
自動でエラーを検出して設定値によってバックアップに切り替わるとしたら
東証は事故おきて動かないのなら、何故「手動」ですぐ切り替えなかったの?
そしたら15分以内に解決じゃん
つまり自動が動かない時に手動でこうやって切り替えて動かそうという危機マニュアルからも漏れてたわけでしょ? これぞジャパンクオリティー
そもそも障害自体が想定外だからな ■ このスレッドは過去ログ倉庫に格納されています