【東証システム障害】米国製予備機「OFF」設定でも15秒後に勝手に「ON」、仕様変更で常時「OFF」、富士通側が変更を記載せずミス [どこさ★]
■ このスレッドは過去ログ倉庫に格納されています
東証システム障害の原因、
自動バックアップ切替が「オフ」に(更新)
他社製ストレージの仕様変更に気づかず
Engadget 小口貴宏(Takahiro Koguchi), @TKoguchi787
2020年10月20日, 午前 08:58 in fujitsu
https://japanese.engadget.com/arrowhead-jpx-fujitsu-235842323.html
---------------
東証システム障害はマニュアルの不備 富士通「確認が不十分だった」
関係役員の処分を検討
2020年10月20日 18時39分 公開[樋口隆充,ITmedia]
https://www.itmedia.co.jp/news/articles/2010/20/news141.html
株式売買システム「arrowhead」の不具合が原因で
10月1日に発生した東京証券取引所のシステム障害を巡って、
機器を納入していた富士通は19日、
製品マニュアルに不備があったとして謝罪した。
今後は関係役員の処分を検討し、
社長直轄の組織で再発防止に取り組むという。
https://image.itmedia.co.jp/news/articles/2010/20/l_th_fujitsu_01.jpg
富士通のプレスリリース
障害の原因について富士通は
「マニュアルの記載と実際の仕様の齟齬(そご)があった」と説明。
マニュアルには「メモリ故障などが発生した場合は、
必ず自動切替が行われる」との記載があったが、
実際は自動で切り替わらない仕様となっていたという。
OEM先の米国企業が製品の仕様を変更した際、
富士通がマニュアルの記載が変更されていないことに気付かず、
仕様の変更も検知できなかったとしている。
富士通は「当社の試験・確認が不十分だった」と陳謝した。
メモリ部品が故障した原因は、
事前にOEMベンダーが故障部品の診断を行っているとして
「ロット障害ではなく、偶発的な故障だった」と説明した。
富士通は再発の防止に向け、
製品の仕様とマニュアルに記載されている内容を再確認する他、
OEM先との連携を強化し、仕様の変更に対応する。
同様の事態が発生しないよう、
同じ機種の製品を納入している取引先の点検も進める。
富士通は役員の処分について取締役会で検討する方針も明らかにした。
取締役会の日程は未定。
同社の担当者は「今回の事態を厳粛に受け止める」とした上で、
処分については
「関係役員や本部長、事業部長など、どのレベルまで含むか検討中」
としている。
再発防止に向け、今後は全社的にシステムの再点検を行う。
社長直轄の組織でプロセスの有効性を監視するなど、
品質保証の体制も強化する。 なんにせよバックアップに切り替わるためのトリガの設計に不備があったわけね
この類を丸一日復旧できなくなってしまった体たらくも
国力の低下の結果なのか >>390
テストしてないのではなくて、テストして出荷
その後に設定変更だよ。
富士通内の同型の機種で、確認したということだよ
それは元々出荷時にやってたわけで
当たり前のようにテークオーバーするわけで。。。
何も新しい発見はない。
お約束の結果になったというだけ。 >>396
いや、実機でテストしたかも、メモリ持ち込んで破壊テストを。。。
最初からそれが出来たかは、テスト項目の合意内容によるわな。
最初は、項目として上がっていたとしても削ったかもしれないし
どちらにしても、結果が出てから、べき論で言うのは誰でもできるからね。 マニュアルもマトモに作れない
ものづくり
とか。。。 >>399
マニュアルのネタ元が間違ってたら、作れない。。。
そういった謝った見識が、エンジニアを委縮させるんじゃないかな >>392
「バックアップが常時OFF」ではなくパニックが発生した時に切り替わらない設定になっていた
という事です。>>372 のように物理的に完全に死んだ時はクラスタ間のハートビード切れに
よる切り替えは行われます。
うる覚えですが、トラブル発生日の記者会見でもケーブルを抜いたりした時に切り替わるか
どうかのテストはしていたと言ってたと思う。
この装置のファームウェアはONTAPというUnix系のOSです。
パニックとはWindowsでいうところのブルー画面(BSOD)で再起動する状態の事です。
Unix系のOSでは、この事をPanic, OS Panic, Panic ReBootなどと呼んでいます。
メモリ故障(マルチビットエラー)が発生すると、OSが動作し続ける事が困難になるため
OSがPanic ReBootします。通常、故障したメモリは再起動時のPOST診断(BIOSのテスト)
で切り離されます。
今回OFFになっていた設定はこれです。
cf.takeover.on_panic
https://library.netapp.com/ecmdocs/ECMP1368831/html/GUID-607E0978-44B6-4AE3-B2DE-1C97B93B08C7.html
https://library.netapp.com/ecmdocs/ECMP1659139/html/GUID-172394C5-6FF0-48C3-A674-F9305A6EE811.html netapp のNASは通常時は2ノードを両方動かす負荷分散で動いていて
片方落ちたら1ノードだけで両方のノードの機能を果たすという
性能と可用性を高いレベルで両立させているよく考えられたNASなんだが、
それゆえに少々制御が複雑になっているところもある。性能上の要請で、
完全にステートレスにするわけにもいかないし。
それがこういうところに表れるのかもしれない。
昔からの保守的技術者の中にはActive-Active のクラスター構成は
基幹コンポーネントでは絶対に認めないと主張する人もいる。
まあ言い過ぎだとは思うが。 >>15
というか、その前に動作チェックもしてなかったのか?という問題が… >>1
自動で切り替わらないとか商品としてアリなのか? 実際に動作が変わることは
マニュアルの不備により国内では誰も知らなかった後知恵というのは重々承知しているが
いかにも重要そうなとこをデフォから変えてる上、
富士通内の動作確認を障害系テストの代替としてるっぽいのに
「念のため案件と同じ設定で問題ないか確認してみてよ」
って言わなかったっていうのが信じられない
凡百のプロジェクトなら「じゃあ追加費用出せやコラ!」って言われるとしても
富士通も「あの某国内最大の大規模証券システム様が採用された製品です!」
って営業に使う案件だろうから多少のわがままは通りそうなのに こりゃ役員が認識、確認できないだろ
その上で処分するのは、単に社長が責任取りたく無いという事か、相変わらずクズ会社だな 原因はええから損害賠償はよ 何億儲け損なったとおもとんねん >>406
富士通は当然としても、NetAppはarrowhead で使われてるって宣伝に使ってたのかな >>405
富士通が「自動切り替えしない」に設定してたんだからするわけがない。 まあ、アチャーって話ではあるけど、原因が明確にガチにそれなら
まだいいってかんじするわ。
「めっ」して再発防止にすべきことも見えてる感じするし なーんだ「仕様です」の一言で終わりの案件だったんじゃん
富士通サポセンのバイトさん、乙カレー >>410
初期値はpanic時HAするってなってるはずだぞ またアメリカ製かよww
福島原発もアメリカ製だけ爆発してるからなwww こういうのを見落とすというのはかなり避けがたいものだと思うがなあ。
何かあるたびに全部テストできないというのはその通り。
諦めろというのでなく、最小にすべく努力は必要だけど、コストや時間との兼ね合いが出てくる。 >>416
なお爆発した原発は製造したGEが危険性を指摘している欠陥品w
事故が起こると格納容器が壊れる可能性があると警告してたのが実際に起こっただけ
当然ながら使用していた東電はそれを知った上で動かしていて実際にその通りの事故が起こっただけ
https://jp.reuters.com/article/idJPJAPAN-20065820110316
>GEの元社員デール・ブライデンボー氏はインタビューに応じ、同社製「マークI型」原子炉について、大規模事故による負担に耐えうるよう設計されていなかった、と指摘。
>「1980年に(米原子力規制委員会は)マークI原子炉の格納容器に関する包括的な業界向け指示を出したが、GEはそれに従い、全ての顧客にそれを通達した」としている。
>マークI型格納容器が他の原子炉ほど負担に耐えられないという事実から生じた直接的な結果だといえる もう最近の日本も製品は大概外国製で自分とこのロゴだけ製品と
箱につけて売ってるよな?
そりゃ衰退するはw >>1
アメリカのせいにしようとしてるのかよ
打ち上げ失敗をアメリカ製の部品のせいにしようとしたJAXAと同じだなwww テストプログラム走らせてないわけだな
どうしょもねえな >>1
ということは
富士通の構築した他社のシステムでも目当然ありうるということ
恐ろしい 次の発表はアメリカから担当とマネージャー宛に仕様変更メールがとうの昔に届いて
いて、メールのチェック漏れのせいにするんだろう
しかし理解出来ないのは富士通はハードとマニュアル納入して後は東証のせいでも
しているような言い方。ハード現調してシステム設定したのは富士通じゃないのか?
保守マニュアルか何かを東証に納品していたんだろうけど。 >>1
ごめんドーナツ食っててスイッチ入れておくの忘れちゃった
って話? 基幹システムの設定変更の基本ができてなかっただけだ
1.同一構成同一ファームウェアの検証環境を準備する
2.ファームウェア更新や設定変更は検証環境でおこなう
3.そしてこれ大事!必ずシステム変更後に片系障害テストをやる
ベンダーにやらせろ、客も金をケチるな >>427
ほんとこれだわ
これが分かってて作ってるところなんて
日本じゃ極一部の証券会社しかねえ これ根底にはハード信仰があったんだろうな
むかしの大鑑巨砲主義みたいなもので
戦艦があれはアメリカに勝てる なんて
上層部がおもいこんでいた いまでも
新型システムさえ導入したら問題解決できる
なんておもいこんでるIT大臣いるよね
導入しただけでメンテナンスを考えていない
だいたい導入費用の3倍はメンテナンス費用を見込んでおかないと ネットワーク、サーバー(ノード)、ディスク
に○(正常) ×(障害)つけるだけで
○○○を除いた7パターン考えられるのに
×○○の1パターンしか自分で確かめてなくて
すべてデフォに設定したベンダー環境の製品テストを根拠にしたって
こんな会社とその元請け・下請けじゃ将来また絶対やらかすよ 故障したディスクやメモリー は富士通製なのに無知なネトウヨがサムスン製かよwとかロビー活動してて笑ったわ 富士通って今もメモリやディスク自社で作ってたっけ? >>431
受注側や元請けがアホだと下請け孫請けは何もできないぞ
金の問題(笑)とかでテストすらやらせてくれないからな どうせ今回のこれでも裏で下請け孫請けが責任取らされて切られてるぞ >>433
作ってないでしょ。
今や日本製のディスクとかメモリってあったっけ? >>434
下請けは決定権ないからな
提言しても金がーで蹴られる 派遣やどこの馬の骨かもわからん偽装請負にやらせるからやろ(^。^)y-.。o○ 先週には欧州のユーロネクストでも売買停止になった
アムステルダム、ブリュッセル、ダブリン、リスボン、パリで株式、デリバティブも含め停止
日本だけでなく世界中の市場で時々起きている
先日の日本の場合はデリバティブは分離されてたから停止しなかった
気配値提示→売買受付→気配値更新→付け合せ→売買成立→価格更新→証券会社へ通知→ のループ
データロス無しに多数の銘柄で瞬時にこれやっててよく動いてるとは思う 東証や富士通に>>1みたいな仕様変更の事例があるなんて予測できるやついないからな ■ このスレッドは過去ログ倉庫に格納されています