【東証】売買終日停止、バックアップに不備　メモリー故障が発端 [ばーど★]

**ばーど ★** · 2020/10/02(金) 11:26:54.61

東京証券取引所で1日起きた売買の終日停止は、システムのバックアップが機能しなかったことが主因だ。きっかけは基本的な情報などを格納するディスク内のメモリーが故障したことだが、もう一つのディスクへの切り替えがうまくいかなかった。2012年のシステム障害でもバックアップが機能しない問題が発生しており、同じ要因が繰り返された。システム全体が止まりやすい構造に問題が無いか、究明が必要になる。

「『ネバーストップ』を合言葉に市場の安定的な運営を心がけてきた。このような事象が起き、深くおわび申し上げる」。東証の宮原幸一郎社長は1日夕の記者会見でこう陳謝した。コンピューターの処理速度だけではなく、安定性と信頼性を重視したシステムを目指してきたが、取引は終日止まってしまった。

東証によると、2010年に導入した高速取引システム「アローヘッド」では、銘柄名やその日の基準値段など基本的な情報を格納しているディスクが2つあり、「共有ディスク装置」と呼ばれる。今回は午前7時4分に1号機のディスクの故障を検知。通常は、1号機と同じ情報を書き込んでいる2号機に自動的に切り替わるが、バックアップがうまくいかなかった。

システムのバックアップを巡っては、東証では12年2月にも情報配信システムで障害が発生している。1台のサーバーに障害が発生し、別のサーバーに処理を切り替えたつもりだった。ところが、実際には失敗しており、同日午前中の一部銘柄の取引停止につながった。

今回、故障した機器はわかっていたため、ディスクを交換してシステムを手動で再起動をすれば売買再開は可能だった。ただ証券会社からの注文を受け付けていたため、再起動した場合、こうした注文がリセットされてしまう。

注文を出す証券会社側でも通常とは異なる処理が発生する可能性が高かった。そのため「大手や外資、ネット証券など市場参加者の意見を聞いて、混乱を回避するために終日の売買停止を決めた」（株式売買を担当する川井洋毅執行役員）。

原因の究明はこれからだ。故障したディスクやメモリーは富士通製。東証でシステム部門を統括する横山隆介常務執行役員は「ハードの故障自体は想定している。富士通に機器を持ち込み、なぜ自動的に2号機に切り替わらなかったのかという点を調べる」と話した。

富士通は、アローヘッドの設計・開発を一貫して手がけてきた。約350台のサーバーで構成する大規模システムで、今回故障したディスク装置や、正常に作動しなかった2号機への切り替えシステムも手がけていた。

共有ディスク装置は、アローヘッドを刷新した19年11月に導入したものだ。メモリーの故障が発生したのは今回が初めてという。「テストでは正常に切り替えができていた」（東証の横山氏）が、1日は作動しなかった。

2020/10/1 22:14 (2020/10/2 5:36更新)
https://www.nikkei.com/article/DGXMZO64506130R01C20A0EA2000/
-----
■東証システム障害の発端は共有ディスク装置のメモリ故障、東京証券取引所宮原社長らが会見で経緯を説明

https://live2.nicovideo.jp/watch/lv328335496

・10/1(木)7:04に共有ディスク装置1号機のメモリ故障が発生
・1号機故障時に2号機へ切り替わらず、相場情報配信業務や売買監視業務に異常が発生

【画像】報道配布資料
https://pbs.twimg.com/media/EjOjKvCU0AAzfM0.jpg

午後4:39 ・ 2020年10月1日
https://twitter.com/nico_nico_news/status/1311571524113952768

■関連スレ
【東証システム障害】日本取引所、売買停止の原因は「共有ディスクのメモリ故障」 ★11 [ばーど★]
https://asahi.5ch.net/test/read.cgi/newsplus/1601587978/
https://twitter.com/5chan_nel (5ch newer account)

**不要不急の名無しさん** · 2020/10/02(金) 11:27:27.66

愛の
甘い名残に

**不要不急の名無しさん** · 2020/10/02(金) 11:27:49.28

富士通の株価はどうなってるの？

**不要不急の名無しさん** · 2020/10/02(金) 11:28:42.96

キャッシュ故障も想定してないオワコンシステムｗｗ

ゾンビ状態で運用し続けたんだろ

**不要不急の名無しさん** · 2020/10/02(金) 11:29:16.58

普通に使ってたら壊れたってやつか

**不要不急の名無しさん** · 2020/10/02(金) 11:29:32.35

川崎工場で検証するのかな？

**不要不急の名無しさん** · 2020/10/02(金) 11:30:20.97

納品は不治痛でコントローラはLSIかどっかのOEMだろ

**不要不急の名無しさん** · 2020/10/02(金) 11:31:47.51

物はいつか必ず壊れる
代替のシステムは必ず必要

今回はそれすら動かなかったみたいだけど

**不要不急の名無しさん** · 2020/10/02(金) 11:33:15.80

普通のストレージでもエラーからの低速化はあるからな
証券取引所の設計でそれを考慮していなかったのなら相当なアホｗ

**不要不急の名無しさん** · 2020/10/02(金) 11:35:30.93

なんて予備の予備を作ってないんだ
普通こういうのって正、副、そして最終手段の予備で、回すだろ

**不要不急の名無しさん** · 2020/10/02(金) 11:37:05.59

ウインドウズMEなんて使うからメモリーが……

**不要不急の名無しさん** · 2020/10/02(金) 11:37:37.53

メモリ故障とは言うが、
その原因が昔組んだシステムに瓦HDD入れたとかじゃねえだろうな

**不要不急の名無しさん** · 2020/10/02(金) 11:38:00.37

RAIDを組んでもメモリボードの故障で意味がなくなるのか。
それでRAIDを2セット？
AWSのS3でも使ってたら良かったのか？

**不要不急の名無しさん** · 2020/10/02(金) 11:38:15.63

これシステム組んだやつ賠償請求されんのかな？

**不要不急の名無しさん** · 2020/10/02(金) 11:39:25.93

富岳もダウンしそう

**不要不急の名無しさん** · 2020/10/02(金) 11:40:01.54

スパコンは常にどっか壊れてるぞ。
部品数が多いので。

**不要不急の名無しさん** · 2020/10/02(金) 11:40:44.73

これが富士通の限界かね？
NECならばどうだったんだ？
日本はこういうことに掛けては世界トップのハズがいつのまにか中国勢に
そのお株を奪われるハメになるとはな～。

**不要不急の名無しさん** · 2020/10/02(金) 11:41:27.18

バックアップに切り替わらなかったのがシステム停止の原因。
つまりハードの故障は想定内なのですよ。

**不要不急の名無しさん** · 2020/10/02(金) 11:41:40.51

＞2012年のシステム障害でもバックアップが機能しない問題が発生しており、同じ要因が繰り返された。

何やってんだこいつら

**不要不急の名無しさん** · 2020/10/02(金) 11:42:15.75

ディスク内のメモリ故障って、HDDが死んだってこと？

**不要不急の名無しさん** · 2020/10/02(金) 11:42:58.61

ある機器で問題発生したときにそうじゃない機器に切り替えできないなら冗長構成の意味ないよね
まあこうしたトラブルって滅多に起こることじゃないし一度稼働させるとテストしようとしても止められなくなるから
対応が非常に難しいってのはあるけども

**不要不急の名無しさん** · 2020/10/02(金) 11:43:11.61

これはもうだめかもわからんね
　　

**不要不急の名無しさん** · 2020/10/02(金) 11:43:16.53

>>20
一般的にはそうなるね。HDDが死んだということ。

**不要不急の名無しさん** · 2020/10/02(金) 11:44:40.15

ごしゅじんさま、いままで、とてもたのしかたです。
よく歩りーずしておこられたけど、やくにたたなで、ごめんなさい。
ごしゅじんさまが、いれるよていの、えくすぴーはあたしのいもおとです。
いもおとだけど、あたしみたいに、やくたたずではありません。
すなおなこで、でふらぐも、とくいです。
すたいるもいいから、ほんとはちょっと、くやしいです、
いもとを、かわいがってもらえると。おねえさんとして、うれしいです。
いままでつかえないこで、・ごめんなさい..
そして、つかってくれて、ありがとおゴザいました。
あたしは、もう、きえちゃうけれど￥、さいごに、おねがいがあります。
きいてくれると、うれしいです。
ごしゅじんさまの、もっている、えむいーのディすく、すてないでください。
あたしが、はいっています。いまのあたしじゃ、ないけど、あたしです。
どきどきみたり、さわったり。、してくれるとうれしいです。
ごしゅじんさまにあえて、えむいは、
しあわS

かつてwindows7やvistaが世に出るはるか昔、windows Meというosが発売された
Meとはミレニアムエディションの頭文字をとったもので、確か2000年前後に発売されたものだったと思う
その特徴としては、とにかく動作が不安定だった。しょっちゅうフリーズしていた。
Meが出た当初は評判最悪で「マイクロソフト終わったな」と散々な言われようだった
それからしばらくして発売されたwindows XPはMeの教訓を生かしてか、動作は重かったものの抜群の安定性を見せつけたものだった
XPスゲーMeクソすぎという書き込みで2ちゃんが埋め尽くされるなか、突如Meを擁護する連中が現れた
「Meだって頑張ってたじゃないか！よくよく考えてみたらドジっ娘みたいで可愛いじゃないか！」
当時流行っていた無生物擬人化の波に押され、「Meたん」と名付けられた彼女は萌えキャラとしての地位を確立したのであった

**不要不急の名無しさん** · 2020/10/02(金) 11:44:58.48

>>8
NYのヤツは地球最後の日まで動いてそう

**不要不急の名無しさん** · 2020/10/02(金) 11:45:24.75

新聞朝刊の株欄が真っ白でワロタ

**不要不急の名無しさん** · 2020/10/02(金) 11:46:25.30

今度ダメになったら　　信用なし外国投資家逃て株価大暴落

**不要不急の名無しさん** · 2020/10/02(金) 11:47:04.49

何人クビが飛ぶのかなー

**不要不急の名無しさん** · 2020/10/02(金) 11:47:55.01

ガラケー充電最強や～ ←キチガイガラケーうんこジジイの断末魔w

**不要不急の名無しさん** · 2020/10/02(金) 11:48:47.86

メモリ故障は仕方ないけれど
バックアップが機能しないのは重大な瑕疵だな

**不要不急の名無しさん** · 2020/10/02(金) 11:49:31.94

こういう障害の自動復旧プロセスの検証が難しいんだよなあ

**不要不急の名無しさん** · 2020/10/02(金) 11:50:01.99

テストのときは正常だったっていつのことだよ

**不要不急の名無しさん** · 2020/10/02(金) 11:50:03.35

【神通力】東原亜希、“デスブログ”に「どうしよう」を「とうしよう」と誤表記→翌日「東証売買終日停止」
http://egg.5ch.net/test/read.cgi/%72%69%76%65%72/1595679271/l50

**不要不急の名無しさん** · 2020/10/02(金) 11:50:08.17

>>26
見たい
Twitterであげてるやついるかな

**不要不急の名無しさん** · 2020/10/02(金) 11:50:55.73

衰退国らしくていいじゃないの

**不要不急の名無しさん** · 2020/10/02(金) 11:51:46.31

こういうのって富士通なんかより日立のほうがよくね？

**不要不急の名無しさん** · 2020/10/02(金) 11:52:04.95

バッファでついてるキャッシュメモリじゃね

**不要不急の名無しさん** · 2020/10/02(金) 11:52:48.96

何もしてないのにときめきも壊れた(´・ω・｀)

**不要不急の名無しさん** · 2020/10/02(金) 11:52:57.89

マスター・スレーブという用語が使えなくなったから現場が混乱しているのかもな。
担当「大変です。スレーブに切り替わりません！」
上司「お前はレイシストか！？BLMデモに参加して反省しろ！」

**不要不急の名無しさん** · 2020/10/02(金) 11:53:00.95

何気にメモリーって壊れたり初期不良が一定数あるよね

**不要不急の名無しさん** · 2020/10/02(金) 11:53:29.32

>>37
うんそれ
なのでチェックしにくい

**不要不急の名無しさん** · 2020/10/02(金) 11:53:51.79

バックアップに移行する為のコードが壊れたメモリに展開されてたなら
当然機能しないだろう

**不要不急の名無しさん** · 2020/10/02(金) 11:54:28.76

また想定外か

**不要不急の名無しさん** · 2020/10/02(金) 11:54:30.06

>>39
東証のはタンデムシステムだから、そもそもマスターもスレーブもないんじゃない？
知らんけど

**不要不急の名無しさん** · 2020/10/02(金) 11:55:53.23

ハードはめげるわ切り替えソフトは不具合で正常動作しないわ
ダメダメシステムじゃん

**不要不急の名無しさん** · 2020/10/02(金) 11:56:25.64

>約350台のサーバーで構成する大規模システムで、・・・

３５０台のうち常に１０台くらい壊れているようなシステムの方が
全体としてはうまくいく。

**不要不急の名無しさん** · 2020/10/02(金) 11:56:37.45

朝7時に止まってるのが分かったのに、なぜすぐ再起動しないのか

**不要不急の名無しさん** · 2020/10/02(金) 11:57:09.57

>>34
いたよ

**不要不急の名無しさん** · 2020/10/02(金) 12:03:40.74

AWSにしとけよ

**不要不急の名無しさん** · 2020/10/02(金) 12:05:25.17

>基本的な情報などを格納するディスク内のメモリーが故障

「ディスク内のメモリー」は珍妙な表現だな。
ディスクは記録用の円盤のことで、その中にメモリーなどない。
おそらく、別の個所の文章から推察して「共有ディスク装置内のメモリー」の故障だろう。
メモリーとは、おそらくキャッシュ・メモリーのことではないか？
通常は、これが壊れても致命的な障害などにはならない。
「基本的な情報などを格納する」ものなので、レイドやデュアルやレプリケーションなどで、記録内容は自動的に２重化してるはずだ。

今回は、障害に伴う主系から従系への切り替えに失敗したらしい。
おそらくコアなサーバ（メインのプロセスや全体統括をするサーバ）と共有ディスク装置とをつなぐ機器（ゲートウェイ、連携サーバ、バランサー、もしかしたら素朴なルータなど、細かな機能や名称はよくわからんが）のソフトウェアに問題がありそう。

10月1日という日付から勝手に想像すると、
先の４連休でシステムの改修を行い、10月１日から切り替わることにしてたけど、正常系はしっかりテストしたものの異常系はテストが不十分で、運悪く日付が切り替わるタイミングにハードウェア障害が重なり、バックアップへの切り替えに失敗したということではないか。
１　共有ディスク装置のハードウェア障害
２　連携システムの異常系のソフトウェア障害
が重なったということかな。

となると、連携システムのタイマーやタイムスタンプ関連のバグの可能性が大となる。
タイマーは、通常はハード的なものだけど、LINUXのカーネルのjiffiesみたいなソフト的な奴もあるしね。

**不要不急の名無しさん** · 2020/10/02(金) 12:06:17.36

結論は高価なクラスタシステムは事前検証の出来ない障害には
対応できず無力ってことだわな。ＡＷＳ等で行っているような安い
システムを多重で動かして備えるのが最適解ってこと。

**不要不急の名無しさん** · 2020/10/02(金) 12:06:45.63

なおったの？よかったね

**不要不急の名無しさん** · 2020/10/02(金) 12:07:36.18

>>2　愛のメモリーか。なんのことか理解するのに、時間かかった。(^^;

**不要不急の名無しさん** · 2020/10/02(金) 12:08:08.51

メモリーとくればグラスだよね

**不要不急の名無しさん** · 2020/10/02(金) 12:09:55.73

ダメだねメイドインジャパン

**不要不急の名無しさん** · 2020/10/02(金) 12:10:34.31

>>4
日本語が読めないお前がオワコンだ。

**不要不急の名無しさん** · 2020/10/02(金) 12:11:29.54

>>13
お前が間抜けで無知なとうしろうなのはよく分かったから黙ってろ。間抜け。

**不要不急の名無しさん** · 2020/10/02(金) 12:11:38.23

>>55
メモリはほとんどが韓国製です。

**不要不急の名無しさん** · 2020/10/02(金) 12:11:58.81

624 晴男くん(神奈川県) [US] sage ▼ 2020/10/01(木) 20:11:44.50 ID:gBgXovz20 [1回目]
堀北真希ショック　－８９５円
木村沙織ショック　－２９８円
福山雅治ショック　－７１４円
釈由美子ショック　－２０３円
北川景子ショック　－４７９円
優香ショック -582円
押切もえショック-307円
小倉優子ショック(再婚）-1010円

石原さとみショック　－　（東証物理破壊）←New

**不要不急の名無しさん** · 2020/10/02(金) 12:12:05.75

>>53
ハゲのメモリーと言う歌もご本人が熱唱してらっしゃる

**不要不急の名無しさん** · 2020/10/02(金) 12:12:13.18

>>23
>>20
パソコンしか知らないど素人に理解できる内容ではない。

間抜け。

**不要不急の名無しさん** · 2020/10/02(金) 12:12:25.47

メモリー故障というが、エンタープライズ系のストレージなら、コントローラも二重化されてて、Active-Active で動作するのが一般的だと思うんだがな。
富士通のストレージはコントローラもシングルで、さらにメモリもリダンダント構成に出来ないポンコツ、ってことは理解できた。
次は EMC か HPE にしとくといいよ。

それはともかく、２号機にフェイルオーバーしなかった、ってのはありがちな話。
障害試験のシナリオが少なく、不十分だったとしか言えない。

あと、自動でフェイルオーバーしなかった場合に手動で切り替えられるよう、事前に準備しておくのも怠ってたのだろう。

**不要不急の名無しさん** · 2020/10/02(金) 12:15:02.59

>>24
今ならMEのディスクあればバーチャルマシンで使えるから何かとお役立ちなんだよね。

MEたんのいうこと聞いてればと思ったSEは結構いる。

**不要不急の名無しさん** · 2020/10/02(金) 12:15:58.31

やっぱりストレージか
シンクかリシンクで失敗したんだな

**不要不急の名無しさん** · 2020/10/02(金) 12:16:19.24

>>62
手動でやって、やったつもりだったけど出来てなかったというのが、前回ではなかったかな？

**不要不急の名無しさん** · 2020/10/02(金) 12:17:20.45

壊れ方が中途半端で正常稼働に見えて切り替わらないとか、なぜか機器内の冗長部品が両系巻き添えで同時に故障するとかあるんだよね。
今回はどうだったのか分からんけども。

**不要不急の名無しさん** · 2020/10/02(金) 12:20:16.39

>ディスクを交換してシステムを手動で再起動をすれば売買再開は可能だった。
>ただ証券会社からの注文を受け付けていたため、
>再起動した場合、こうした注文がリセットされてしまう。

つまり、「こうした注文」とやらを分離して、記憶していけるシステムだったら、
再起動も可能だったという事か
それはそれで、余計に複雑になって、さらに故障の要素が増えることになる

**不要不急の名無しさん** · 2020/10/02(金) 12:21:31.04

>>61
HDDのキャッシュが死んだらHDDに読み書きできない。
そのくらい素人でも知ってるだろ。

そして異常が発生したのにバックアップへ切り替えできなかった。
東証は過去にも同じトラブルを起こしてる。

**不要不急の名無しさん** · 2020/10/02(金) 12:21:34.88

サムスンのHDDがキャッシュメモリ
の不具合多かったな

**不要不急の名無しさん** · 2020/10/02(金) 12:23:17.02

>>67
そんなことじゃ無いことだけは間違いない

**不要不急の名無しさん** · 2020/10/02(金) 12:23:27.51

サムスン製のメモリやらSSDが壊れたんだろ

**不要不急の名無しさん** · 2020/10/02(金) 12:23:45.89

>>67
受付済みの注文が勝手にキャンセルされたら証券会社もてんてこ舞いだろうな

**不要不急の名無しさん** · 2020/10/02(金) 12:23:51.80

過剰なメモリオーバークロックか

**不要不急の名無しさん** · 2020/10/02(金) 12:24:13.84

まあこれがトンカスがやることって言えばそうなんだがね

**不要不急の名無しさん** · 2020/10/02(金) 12:24:21.65

いろいろ言い訳してるようだけど、要は力不足という事
東証も猛省して、アジアの金融センターとか夢みたいなことを言うのは慎め

**不要不急の名無しさん** · 2020/10/02(金) 12:25:42.95

>>69
バッファローのHDDが1年たたずに壊れてなか開けてみたらサムスンHDDとかなｗ

**不要不急の名無しさん** · 2020/10/02(金) 12:26:07.42

>>62
同感
このクラスのシステムなら、コントローラーも2重化されたハイエンドのストレージを使うと思うが、富士通の　ETERNAS には、それも無いのかな
あるいは、ECC でも検知できない様な故障だったのだろうか

公開された情報だけでは、腑に落ちない障害だ。日経コンあたりが、後日に特集組んでくれる事を期待するわ

**不要不急の名無しさん** · 2020/10/02(金) 12:26:31.14

>>51
確かにエンジニアとして十分に検証できないのは辛いところだね。
しかし同じ過ちを二度繰り返すのは論外だ。

**不要不急の名無しさん** · 2020/10/02(金) 12:28:32.22

>>39
いやそういう誤魔化しが原因だろな

**不要不急の名無しさん** · 2020/10/02(金) 12:29:12.94

>>76
w

**不要不急の名無しさん** · 2020/10/02(金) 12:29:43.23

冗長化を冗談半分でやってて
猿並みに反省する気がないんだから
むしろ事故が起こらないほうが不思議ｗ

**不要不急の名無しさん** · 2020/10/02(金) 12:30:56.48

＞システム全体が止まりやすい構造に問題が無いか、究明が必要になる

こんなのいの一番に考えておくことじゃないのか

**不要不急の名無しさん** · 2020/10/02(金) 12:35:13.34

誤入力発注フェイルセーフすら無かったもんな、事が起こって追加したが

**不要不急の名無しさん** · 2020/10/02(金) 12:35:28.90

商売でやってることだしその心臓部だからな
止まるとか許されんのだわ
復旧して稼働再開したら
早急に別に新しい物を作った方がいいな

**不要不急の名無しさん** · 2020/10/02(金) 12:36:12.22

ここ見ても誤魔化すことしか考えてない猿が半分以上だろ？

**不要不急の名無しさん** · 2020/10/02(金) 12:36:32.92

故障してもすぐにバックアップ装置が作動するようになってないのか

**不要不急の名無しさん** · 2020/10/02(金) 12:36:40.29

メモリ～♫
って、歌ったエンジニアはいないよなｗ

**不要不急の名無しさん** · 2020/10/02(金) 12:37:02.87

再起動したら注文がリセットされる仕様がおかしいんじゃねーの
ロールフォワードで復旧できなきゃダメだろ

**不要不急の名無しさん** · 2020/10/02(金) 12:38:19.65

もう、汎用機にしろ

オープン系はダメだ。

**不要不急の名無しさん** · 2020/10/02(金) 12:39:53.47

予備が動かないとかまんま福島でワロタ

**不要不急の名無しさん** · 2020/10/02(金) 12:39:54.71

>>86
勿体ないから仕分けしてたみたいだよ

**不要不急の名無しさん** · 2020/10/02(金) 12:40:02.71

メモリーってぶっ壊れるのか

**不要不急の名無しさん** · 2020/10/02(金) 12:41:30.07

5人の戦士に明日はいらない

**不要不急の名無しさん** · 2020/10/02(金) 12:43:01.48

つまり、二重構成のストレージエリアネットワークで、フェイルオーバーしなかった、と。
メモリ故障でも生存確認（ウォッチドッグ）には反応するから、スイッチ上では死亡判定されなかったってことか？
そもそもの設計がクソじゃね？

**不要不急の名無しさん** · 2020/10/02(金) 12:43:07.87

ポンコツってことで

**不要不急の名無しさん** · 2020/10/02(金) 12:44:02.81

去年システム換えたばっかりじゃなかったか

**不要不急の名無しさん** · 2020/10/02(金) 12:44:43.25

何故切り替わらなかったの？
大量データで高速だから？

**不要不急の名無しさん** · 2020/10/02(金) 12:45:00.49

>>88
再起動の問題ではなく、交換するディスクにトランザクションが格納されていたんだろ

**不要不急の名無しさん** · 2020/10/02(金) 12:45:27.25

>>34
朝刊くらい買ってこいよ

**不要不急の名無しさん** · 2020/10/02(金) 12:48:32.98

むしろこれからの始末書とか報告書とか再発防止策とかの後処理が面倒くさそう