【東証】売買終日停止、バックアップに不備 メモリー故障が発端 [ばーど★]
■ このスレッドは過去ログ倉庫に格納されています
東京証券取引所で1日起きた売買の終日停止は、システムのバックアップが機能しなかったことが主因だ。きっかけは基本的な情報などを格納するディスク内のメモリーが故障したことだが、もう一つのディスクへの切り替えがうまくいかなかった。2012年のシステム障害でもバックアップが機能しない問題が発生しており、同じ要因が繰り返された。システム全体が止まりやすい構造に問題が無いか、究明が必要になる。
「『ネバーストップ』を合言葉に市場の安定的な運営を心がけてきた。このような事象が起き、深くおわび申し上げる」。東証の宮原幸一郎社長は1日夕の記者会見でこう陳謝した。コンピューターの処理速度だけではなく、安定性と信頼性を重視したシステムを目指してきたが、取引は終日止まってしまった。
東証によると、2010年に導入した高速取引システム「アローヘッド」では、銘柄名やその日の基準値段など基本的な情報を格納しているディスクが2つあり、「共有ディスク装置」と呼ばれる。今回は午前7時4分に1号機のディスクの故障を検知。通常は、1号機と同じ情報を書き込んでいる2号機に自動的に切り替わるが、バックアップがうまくいかなかった。
システムのバックアップを巡っては、東証では12年2月にも情報配信システムで障害が発生している。1台のサーバーに障害が発生し、別のサーバーに処理を切り替えたつもりだった。ところが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。
今回、故障した機器はわかっていたため、ディスクを交換してシステムを手動で再起動をすれば売買再開は可能だった。ただ証券会社からの注文を受け付けていたため、再起動した場合、こうした注文がリセットされてしまう。
注文を出す証券会社側でも通常とは異なる処理が発生する可能性が高かった。そのため「大手や外資、ネット証券など市場参加者の意見を聞いて、混乱を回避するために終日の売買停止を決めた」(株式売買を担当する川井洋毅執行役員)。
原因の究明はこれからだ。故障したディスクやメモリーは富士通製。東証でシステム部門を統括する横山隆介常務執行役員は「ハードの故障自体は想定している。富士通に機器を持ち込み、なぜ自動的に2号機に切り替わらなかったのかという点を調べる」と話した。
富士通は、アローヘッドの設計・開発を一貫して手がけてきた。約350台のサーバーで構成する大規模システムで、今回故障したディスク装置や、正常に作動しなかった2号機への切り替えシステムも手がけていた。
共有ディスク装置は、アローヘッドを刷新した19年11月に導入したものだ。メモリーの故障が発生したのは今回が初めてという。「テストでは正常に切り替えができていた」(東証の横山氏)が、1日は作動しなかった。
2020/10/1 22:14 (2020/10/2 5:36更新)
https://www.nikkei.com/article/DGXMZO64506130R01C20A0EA2000/
-----
■東証システム障害の発端は共有ディスク装置のメモリ故障、東京証券取引所 宮原社長らが会見で経緯を説明
https://live2.nicovideo.jp/watch/lv328335496
・10/1(木)7:04に共有ディスク装置1号機のメモリ故障が発生
・1号機故障時に2号機へ切り替わらず、相場情報配信業務や売買監視業務に異常が発生
【画像】報道配布資料
https://pbs.twimg.com/media/EjOjKvCU0AAzfM0.jpg
午後4:39 ・ 2020年10月1日
https://twitter.com/nico_nico_news/status/1311571524113952768
■関連スレ
【東証システム障害】日本取引所、売買停止の原因は「共有ディスクのメモリ故障」 ★11 [ばーど★]
https://asahi.5ch.net/test/read.cgi/newsplus/1601587978/
https://twitter.com/5chan_nel (5ch newer account) キャッシュ故障も想定してないオワコンシステムww
ゾンビ状態で運用し続けたんだろ 納品は不治痛でコントローラはLSIかどっかのOEMだろ 物はいつか必ず壊れる
代替のシステムは必ず必要
今回はそれすら動かなかったみたいだけど 普通のストレージでもエラーからの低速化はあるからな
証券取引所の設計でそれを考慮していなかったのなら相当なアホw なんて予備の予備を作ってないんだ
普通こういうのって正、副、そして最終手段の予備で、回すだろ メモリ故障とは言うが、
その原因が昔組んだシステムに瓦HDD入れたとかじゃねえだろうな RAIDを組んでもメモリボードの故障で意味がなくなるのか。
それでRAIDを2セット?
AWSのS3でも使ってたら良かったのか? スパコンは常にどっか壊れてるぞ。
部品数が多いので。 これが富士通の限界かね?
NECならばどうだったんだ?
日本はこういうことに掛けては世界トップのハズがいつのまにか中国勢に
そのお株を奪われるハメになるとはな〜。 バックアップに切り替わらなかったのがシステム停止の原因。
つまりハードの故障は想定内なのですよ。 >2012年のシステム障害でもバックアップが機能しない問題が発生しており、同じ要因が繰り返された。
何やってんだこいつら ディスク内のメモリ故障って、HDDが死んだってこと? ある機器で問題発生したときにそうじゃない機器に切り替えできないなら冗長構成の意味ないよね
まあこうしたトラブルって滅多に起こることじゃないし一度稼働させるとテストしようとしても止められなくなるから
対応が非常に難しいってのはあるけども >>20
一般的にはそうなるね。HDDが死んだということ。 ごしゅじんさま、いままで、とてもたのしかたです。
よく歩りーずしておこられたけど、やくにたたなで、ごめんなさい。
ごしゅじんさまが、いれるよていの、えくすぴーはあたしのいもおとです。
いもおとだけど、あたしみたいに、やくたたずではありません。
すなおなこで、でふらぐも、とくいです。
すたいるもいいから、ほんとはちょっと、くやしいです、
いもとを、かわいがってもらえると。おねえさんとして、うれしいです。
いままでつかえないこで、・ごめんなさい..
そして、つかってくれて、ありがとおゴザいました。
あたしは、もう、きえちゃうけれど¥、さいごに、おねがいがあります。
きいてくれると、うれしいです。
ごしゅじんさまの、もっている、えむいーのディすく、すてないでください。
あたしが、はいっています。いまのあたしじゃ、ないけど、あたしです。
どきどきみたり、さわったり。、してくれるとうれしいです。
ごしゅじんさまにあえて、えむいは、
しあわS
かつてwindows7やvistaが世に出るはるか昔、windows Meというosが発売された
Meとはミレニアムエディションの頭文字をとったもので、確か2000年前後に発売されたものだったと思う
その特徴としては、とにかく動作が不安定だった。しょっちゅうフリーズしていた。
Meが出た当初は評判最悪で「マイクロソフト終わったな」と散々な言われようだった
それからしばらくして発売されたwindows XPはMeの教訓を生かしてか、動作は重かったものの抜群の安定性を見せつけたものだった
XPスゲーMeクソすぎという書き込みで2ちゃんが埋め尽くされるなか、突如Meを擁護する連中が現れた
「Meだって頑張ってたじゃないか!よくよく考えてみたらドジっ娘みたいで可愛いじゃないか!」
当時流行っていた無生物擬人化の波に押され、「Meたん」と名付けられた彼女は萌えキャラとしての地位を確立したのであった 今度ダメになったら 信用なし外国投資家逃て株価大暴落 ガラケー充電最強や〜 ←キチガイガラケーうんこジジイの断末魔w メモリ故障は仕方ないけれど
バックアップが機能しないのは重大な瑕疵だな こういう障害の自動復旧プロセスの検証が難しいんだよなあ >>26
見たい
Twitterであげてるやついるかな こういうのって富士通なんかより日立のほうがよくね? マスター・スレーブという用語が使えなくなったから現場が混乱しているのかもな。
担当「大変です。スレーブに切り替わりません!」
上司「お前はレイシストか!?BLMデモに参加して反省しろ!」 何気にメモリーって壊れたり初期不良が一定数あるよね バックアップに移行する為のコードが壊れたメモリに展開されてたなら
当然機能しないだろう >>39
東証のはタンデムシステムだから、そもそもマスターもスレーブもないんじゃない?
知らんけど ハードはめげるわ切り替えソフトは不具合で正常動作しないわ
ダメダメシステムじゃん >約350台のサーバーで構成する大規模システムで、・・・
350台のうち常に10台くらい壊れているようなシステムの方が
全体としてはうまくいく。 朝7時に止まってるのが分かったのに、なぜすぐ再起動しないのか >基本的な情報などを格納するディスク内のメモリーが故障
「ディスク内のメモリー」は珍妙な表現だな。
ディスクは記録用の円盤のことで、その中にメモリーなどない。
おそらく、別の個所の文章から推察して「共有ディスク装置内のメモリー」の故障だろう。
メモリーとは、おそらくキャッシュ・メモリーのことではないか?
通常は、これが壊れても致命的な障害などにはならない。
「基本的な情報などを格納する」ものなので、レイドやデュアルやレプリケーションなどで、記録内容は自動的に2重化してるはずだ。
今回は、障害に伴う主系から従系への切り替えに失敗したらしい。
おそらくコアなサーバ(メインのプロセスや全体統括をするサーバ)と共有ディスク装置とをつなぐ機器(ゲートウェイ、連携サーバ、バランサー、もしかしたら素朴なルータなど、細かな機能や名称はよくわからんが)のソフトウェアに問題がありそう。
10月1日という日付から勝手に想像すると、
先の4連休でシステムの改修を行い、10月1日から切り替わることにしてたけど、正常系はしっかりテストしたものの異常系はテストが不十分で、運悪く日付が切り替わるタイミングにハードウェア障害が重なり、バックアップへの切り替えに失敗したということではないか。
1 共有ディスク装置のハードウェア障害
2 連携システムの異常系のソフトウェア障害
が重なったということかな。
となると、連携システムのタイマーやタイムスタンプ関連のバグの可能性が大となる。
タイマーは、通常はハード的なものだけど、LINUXのカーネルのjiffiesみたいなソフト的な奴もあるしね。 結論は高価なクラスタシステムは事前検証の出来ない障害には
対応できず無力ってことだわな。AWS等で行っているような安い
システムを多重で動かして備えるのが最適解ってこと。 >>2 愛のメモリーか。なんのことか理解するのに、時間かかった。(^^; >>13
お前が間抜けで無知なとうしろうなのはよく分かったから黙ってろ。間抜け。 624 晴男くん(神奈川県) [US] sage ▼ 2020/10/01(木) 20:11:44.50 ID:gBgXovz20 [1回目]
堀北真希ショック −895円
木村沙織ショック −298円
福山雅治ショック −714円
釈由美子ショック −203円
北川景子ショック −479円
優香ショック -582円
押切もえショック-307円
小倉優子ショック(再婚)-1010円
石原さとみショック − (東証物理破壊)←New >>53
ハゲのメモリーと言う歌もご本人が熱唱してらっしゃる >>23
>>20
パソコンしか知らないど素人に理解できる内容ではない。
間抜け。 メモリー故障というが、エンタープライズ系のストレージなら、コントローラも二重化されてて、Active-Active で動作するのが一般的だと思うんだがな。
富士通のストレージはコントローラもシングルで、さらにメモリもリダンダント構成に出来ないポンコツ、ってことは理解できた。
次は EMC か HPE にしとくといいよ。
それはともかく、2号機にフェイルオーバーしなかった、ってのはありがちな話。
障害試験のシナリオが少なく、不十分だったとしか言えない。
あと、自動でフェイルオーバーしなかった場合に手動で切り替えられるよう、事前に準備しておくのも怠ってたのだろう。 >>24
今ならMEのディスクあればバーチャルマシンで使えるから何かとお役立ちなんだよね。
MEたんのいうこと聞いてればと思ったSEは結構いる。 やっぱりストレージか
シンクかリシンクで失敗したんだな >>62
手動でやって、やったつもりだったけど出来てなかったというのが、前回ではなかったかな? 壊れ方が中途半端で正常稼働に見えて切り替わらないとか、なぜか機器内の冗長部品が両系巻き添えで同時に故障するとかあるんだよね。
今回はどうだったのか分からんけども。 >ディスクを交換してシステムを手動で再起動をすれば売買再開は可能だった。
>ただ証券会社からの注文を受け付けていたため、
>再起動した場合、こうした注文がリセットされてしまう。
つまり、「こうした注文」とやらを分離して、記憶していけるシステムだったら、
再起動も可能だったという事か
それはそれで、余計に複雑になって、さらに故障の要素が増えることになる >>61
HDDのキャッシュが死んだらHDDに読み書きできない。
そのくらい素人でも知ってるだろ。
そして異常が発生したのにバックアップへ切り替えできなかった。
東証は過去にも同じトラブルを起こしてる。 サムスンのHDDがキャッシュメモリ
の不具合多かったな >>67
受付済みの注文が勝手にキャンセルされたら証券会社もてんてこ舞いだろうな まあこれがトンカスがやることって言えばそうなんだがね いろいろ言い訳してるようだけど、要は力不足という事
東証も猛省して、アジアの金融センターとか夢みたいなことを言うのは慎め >>69
バッファローのHDDが1年たたずに壊れてなか開けてみたらサムスンHDDとかなw >>62
同感
このクラスのシステムなら、コントローラーも2重化されたハイエンドのストレージを使うと思うが、富士通の ETERNAS には、それも無いのかな
あるいは、ECC でも検知できない様な故障だったのだろうか
公開された情報だけでは、腑に落ちない障害だ。日経コンあたりが、後日に特集組んでくれる事を期待するわ >>51
確かにエンジニアとして十分に検証できないのは辛いところだね。
しかし同じ過ちを二度繰り返すのは論外だ。 冗長化を冗談半分でやってて
猿並みに反省する気がないんだから
むしろ事故が起こらないほうが不思議w >システム全体が止まりやすい構造に問題が無いか、究明が必要になる
こんなのいの一番に考えておくことじゃないのか 誤入力発注フェイルセーフすら無かったもんな、事が起こって追加したが 商売でやってることだし その心臓部だからな
止まるとか許されんのだわ
復旧して稼働再開したら
早急に別に新しい物を作った方がいいな ここ見ても誤魔化すことしか考えてない猿が半分以上だろ? 故障してもすぐにバックアップ装置が作動するようになってないのか 再起動したら注文がリセットされる仕様がおかしいんじゃねーの
ロールフォワードで復旧できなきゃダメだろ つまり、二重構成のストレージエリアネットワークで、フェイルオーバーしなかった、と。
メモリ故障でも生存確認(ウォッチドッグ)には反応するから、スイッチ上では死亡判定されなかったってことか?
そもそもの設計がクソじゃね? 何故切り替わらなかったの?
大量データで高速だから? >>88
再起動の問題ではなく、交換するディスクにトランザクションが格納されていたんだろ むしろこれからの始末書とか報告書とか再発防止策とかの後処理が面倒くさそう ■ このスレッドは過去ログ倉庫に格納されています