【arrowhead】東証、システム障害の原因を特定「自動切り替えできない設定値になっていた」 [記憶たどり。★]
レス数が1000を超えています。これ以上書き込みはできません。
https://www.itmedia.co.jp/news/articles/2010/06/news063.html
東京証券取引所は10月5日、株式売買システム「arrowhead」(アローヘッド)で1日に発生した障害の原因を特定し、
4日中に修正したと発表した。
障害は、ストレージ内でメモリ故障が起き、サブ機にも切り替わらなかったことが原因。
メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。
https://image.itmedia.co.jp/news/articles/2010/06/l_yx_tos.jpg
東証のニュースリリースより
arrowheadのユーザー情報などを格納するストレージ「共有ディスク装置」の1号機に搭載されたメモリが故障したことに起因。
1号機が障害を検知すると、切り替え用設定値に従って自動で2号機に切り替わるはずが、切り替わらなかった。
調査したところ、メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
設定値を変更すれば、自動切り替えできることが判明。4日にシステムに適用し、自動切り替えが動作することを確認したという。
稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
1日の障害では、東証の全取引が終日停止した。 なんでちゃんとテストしないのか 学校でと避難訓練とかしてるよ 誰か教えてあげて アホかよw
実際に故障を模してチェックしていなかった
ってことだわな。 現場猫のIT版だな
他の人が設定チェックしたと思ったから
自分はチェックせずOK出した よくわかんねえが、男女関係で言ったらメインの男に捨てられたオンナが
183センチでしか設定してなかったんで、せっかくの174.6センチの
高学歴で家柄良すぎで文京区の大名屋敷の跡地の古いが広い家に住んでて
両親大学教授でイケメンでスタイルよくて、超一流企業勤務でそろそろ
管理職各停で人望もある好青年の求愛をことわっちまう的な? >>10
何を今更
Cocoaで散々見てるだろ
しっかり金入れない体質から来てるんだろなぁ 切り替え忘れが悪いんじゃなくて、切り替え忘れを検知する仕組みが必要だね Linux だと panic_on_unrecovered_nmi かな
デフォルト 0 の罠パラメーター >>10
本当これ
普通に考えたらメモリが壊れたときの試験くらいやるだろう 納品時チェックでは動いたって書いてあるんだから後から誰かが弄ったんじゃないの? こういうのって定期的にチェック入れるもんじゃないの?
稼働前にテストしたっきりで以後ずっとノーチェックだったのかな ノーテストで本番リリースか、さすが富士通クオリティ。 えー
テストしてないの
他にもしてないテストあるだろう
正直に言いなさい >>25
稼働させたら後は知らなーいくらいのノリだったんだろ
定期的に障害発生しても問題ないかのテストを行うべきだったね >>23
メモリのフォールトインジェクションは難しいよ
ハード開発ならまだしも SI ではやってないケース多いと思う >>31
難しいからという理由で試験をしないの?
システム開発するだけの能力がないだけじゃん >>17
私の推測では
テストするために設定値を書き換えて
テスト終了後に元に戻して無かったんじゃないかな? >メモリ故障が原因の障害パターンが発生
想定外のパターンが発生?
あらゆる障害を想定しているんじゃないんだな >>36
当たり前だろ
ログの一文からしか分からないケースだってあるぞ >>39
heartbeatはやってて、止まってても切り替える設定外れてたのかと >>29
設定値があるって事はテストしてるはず
つまり想定されてた障害のケース >>41
設定値を直したら切り替わったんだこら想定内だよ どうして自動切り替えできない設定値になっていたのかが書いてない 結局富士通か。あまりタイトな設定値にすると誤作動するから設定値弄ってたんだろw 切り替わる設定はした
だが、そのあと設定値をいじくって切り変わらなくなってた とりあえず、取引できなかった1日分の金利を補償して むしろ毎週自動的に設定値が変化してプライマリが変わるぐらいの設計のほうが正しいってこと?
バックアップ機に切り替わったとしても1日の取引に耐えられるかの保証はないわけで ハートビートは見てましたが心停止したら蘇生せずにそのまま死んでいただく仕様でした
自己責任ですのでういあー自民党 まあ製品のバグのような
自己申告で異常をHA系に通知とか
そんな構造に普通はせんわな >>51
これもあるあるだな。
フェイルバックするの面倒だし 設定ミスにしちゃってるけど、実際の原因を隠してるのかもよ。
あのIT会社は嘘つくからなぁ。 よくわからんが完全死亡なんかじゃなくてよかったよかった 納入時にパラメーター設定確認しなかった奴が悪いだろ 実に日本らしい
原発の予備電源ですらアノザマでしたからね >自動切り替えできない設定値
いやケアレスミスでした、ごめんなさいで、
3度目のシステム障害が起こる。
問題はなんでケアレスミスが起こったかだろ。 >>70
こういうのはメンテナンス時に設定値いじくったりする >>61
普通はそう
少なくとも運用でそうしてるはず 色々な事態を想定して事前チェックしているんじゃないのか?
仮にも世界の主要市場の1つだというのに情けない >>71
_, ,_
( ~ ,_っ~) 全くだw
' それがイジられたのがいつか
ログ見りゃわかるだろ?
ミスなのかサボタージュなのか
さっさと調べろ馬鹿 >>1
>>稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
じゃなんで設定が変わってたんだ? 実稼働時の設定が正しいかチェックする仕組みすら無いとか。。。。でホントの原因は? 誰かが切り替わらないように設定をこっそりイジってたって事じゃねえの? >>31
1日2兆円以上処理する、日本経済の心臓やで?
メモリー交換なんてホストコンピューターなら無停止で交換できるレベルだぞ?
出きんないんだったら、ホストコンピューターからリプレースするんじゃねーよ。 記憶装置のバックアップシステムはSANとかあるけど
メモリのバックアップシステムとかないの? >>1
外注丸投げのバカどもww
なんの為のGUIなんだよw
いつまでもCUIで「俺ってすげぇぇだろ?」ってバカやってるからこうなる
システム変数を見える化しときゃいいだけのこと
数日で出来るだろ
それすら構築できないバカどもw でもこれで1日止めるのはおかしいだろ
バックアップに切り替わらないなら切り替わらないで、バックアップを手動で切り替えて
使えないもんなのかね これだけで丸1日とは。
調査とはいえ、半日後に復旧出来なかったのにも問題あるな。 これでも東証は賠償請求しないって本気なの?
こんなのが許されるなら再発防止なんて無理だよ。
富士通全力空売りしてんだからはよ賠償請求せーや 日本は起こらない前提主義だからな
こういったものは想定外になる よーわからんのは
自動でエラーを検出して設定値によってバックアップに切り替わるとしたら
東証は事故おきて動かないのなら、何故「手動」ですぐ切り替えなかったの?
そしたら15分以内に解決じゃん
つまり自動が動かない時に手動でこうやって切り替えて動かそうという危機マニュアルからも漏れてたわけでしょ? これぞジャパンクオリティー
そもそも障害自体が想定外だからな 完全故障は切り替わるけど
性能劣化では切り替わらんってことかw
システムの設計ミスだな 作業ログは残ってなかったのかな?
設定値変更もプログラマブルにするのを標準にした方がいいね。ansibleとか? >>28
どっちのせいでもないように
作り話し考えてる最中だと思われ (´・ω・`)頑張って擁護してきたけど、もぅむりぃ 要するに形式的に設備は構築したけど
ストレステストはしてないってことだろ 現場猫やったやつ顔面蒼白だろこれ
いやもう「消された」か アローヘッドのデータセンターて何処にあるのかな、まさか韓国じゃないだろうな トランプコロナの情報掴んで市場の混乱を回避するため >>97
手動での切り替え自体は出来た
しかし不整合が発生しうるほどのダウンタイムを経過してたので、ストップさせた 設定値とか言ってるけど要はスイッチが入っていませんでしたw >>107
そういう作り話しにしようとしてるってことでOK >>112
ケアレスミス一個で止まるシステムなら
当然、設計も欠陥品だろうな デフォルトの設置値が切り替わらない値だったのかな? >>3
多分納入時の最初から
設定値は作ったけど応答なくなった場合は自動切り替えする仕組みだったんだろうけれども
ここの設定値の方が優位持ってたとかそんな落ちでしょ >>97
手動切り替えなんてやらないのが正解。
トラブル時に無理に生かそうとすると余計にハマる。
2回目3回目の停止に追い込まれるくらいなら本日店仕舞、の方が賢い。 >>110
作り話しで賠償訴訟起こすの?
ムリっ
wwwwwwwww レベル低い
こんなんだからデジタル庁とか
恥ずかしい仕切りされるんだよ これもう富士通の責任だろ、下請けガーとか言っても仕方ないだろ 設定値()
じゃあログにはディスクのメモリエラーはいたやつ残ってるはずだな あまりも仕事が暇だったので
凍傷システムサービスの社員が設定をいじったと言う事なのか >>124
富士通「引き渡し後に東証側がやると思った」
東証「そう設定されて設置してくれたと思った」 あの日東証がやっていて、トランプコロナと発表されたら、東証はどうなってたかな [config]
auto-kirikae=false >稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていた
テスト後に「切り替え用設定値」を誰かが変更したということか?
そうなると、
1 稼働前のテストはいつ行ったのか?
2 稼働前のテスト以降、システムの更新は行われたのか?
3 テスト環境から本番環境への切り替えはどのように行われたのか? (一部のパラメータがテスト用のままというのは、よくあるミス)
などの疑問が生じる。
そもそも
4 「自動切り替えできない設定値」の場合、共有ディスク装置の制御機構はどのような挙動をするのか、例えば
a 業務サーバとの連携はどうなるのか?
b どのようなアラームが出るのか?
などなど、わからぬことだらけの報道発表だな。 スレタイ見て「はあぁ⁉︎」って声出ちゃっただろ
恥ずかしい ちゃんとやれとかしっかりやれとか確認したのかとか自分で何一つやらずただやれと命令するだけ
そういう連中が現場の手を動かす人間の三倍の数いて妨害に等しい割り込み処理をずっとしてくる
日本は本当におしまい。老人が消え去る15年後ぐらいにやっと持ち直せるかどうか… PCサーバーなんかで手工業的にシステムを組むから
トータルで高可用性設計のアーキテクチャの製品を使わないとw 特定できたってすごくない?日本の技術力の底力をみたわ >>129
東証側はこんなところ触らないでしょ
どう考えても富士通側のケアレスミス >>16
金じゃ動かないから、富士通では無理だったのだろう >>22
カーネル設定としたら、カーネルリビルドですか。
それは再テストの範囲大きいねぇ。
カーネルですもの。 > 稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
切り替え出来てた事を確認してるのに切り替えしない設定に変わってた >>114
だからつまりテストしてなかったって事でしょ
というか不整合が発生するかもしれないほど落ちるというシステムの設計がそもそもミス
つまりバックアップが機能しなかった設計になってるのは設定値を間違えようが同じ事 東証ってそのうち「うちのお父さんが危篤なんです!」とか
「寝てないんですよ我々だって!」とか
「こんなに一生懸命やってるのにみんなボクらの気持ちを分かってくれない!」とか言って泣くとか
やり出すと思うw 動作確認しないのか?
それか、設定確認とかしないのか? 冗長性を確保して、協議多数決システムを採用しないと 日本はどの業界も新設には熱心だけど改修メンテは二流の仕事って意識があるからな 分からないでもないが
なぜ東証の人間と打ち合わせができてなかったんだろう 設定を変更したログみたいなのはないのか
稼働前のテストも何か怪しいな いやーよかったなバグじゃなくて。
日本の技術力を見せつけたわ。
設定どおりに動いたんだから。 無能の極み
レベルが低すぎて怒りも湧かない、ただ笑うしかない >>129
あれ思い出したわ
現場猫のオアシス運動w >>146
壊れないハードは無いという大前提だしね >>152
2流とは失礼な。
3流ならまだマシ、現実はボッタクリや、詐欺師扱いだよ。 >>144
まあ、ストレージ装置なんで、Linux ではなく独自 OS だろうけど。
Linux なら無停止で変更可 本当ゴミみたいな会社だな
今後重要なシステムを富士通に作らせるのは禁止しろよ 外資企業のシステムガーとか言ってたのは何だったのか 銀行システムはもっと作りが酷いんだぞ
タンス預金最強だぞ。 じゃあなんで手動で切り替えなかった
どうせウソなんだろう >>147
完璧にしようとすると何でもお金が掛かるんすよ 設定値ってどういう値でリリースするか設計書あるよね >>14
試験は東証側がやるものだからな。富士通が代行してるだけで。 >>166
なんで富士通に責任は無いって
「原因(?)」が分かる前に言ったの?
わざわざ記者会見開いてwww とりあえず富士通が潰れるくらいの賠償をさせるべき
低品質なシステムを作り出す温床となっている会社は社員ごとシステム開発の仕事から追放したほうが良い 再発防止にはデジタルエキスパートのデジタル庁しかないのであります なら手動で切り替えられたはずだな
作り話だろw
テストでうまくいって設定値戻すとかバカでもありえんわw 受入検査していないからだろな
丸投げの代償は大きい こういう金融系はparallel sysplexとかtandemとか
ハードソフト一体で高可用性の製品を使ってるかと思ってたよw >>172
なんでこういう設定にしてあったか知らないけど、
デフォルトが自動切り替えしない設定で、
それを知らずにデフォルトで使ってたんじゃね。
ユーザーはデフォルトが自動切り替えするものだと勘違いとか。 東証ってそのうち
「うちのお父さんじゃ無くてお母さんが危篤なんです!」とか
「寝てないんですよ我々だって!」とか
「こんなに一生懸命やってるのにみんなボクらの気持ちを分かってくれない!」とか言って泣くとか
やり出すと思うw まあ自分のPCの設定なんて定期的に見たりしないしな >>177
USBがなんなのか説明できる庁ならいいな 通信途絶でフェールオーバーなので通信途絶しないためフリーズと。
これ俺の会社でも去年起きてるぜ。ただ、30分で回復してる。
バカすぎるだろ。こんなの銀行のシステム系でもよくある話だ。
その場合はスイッチオーバーで終わりの話。
なんで当たり前のことを当たり前にできないんだ?
東証のオペレーターどもと富士通の常駐SEは病的低能だな。 >>145
死活監視の途絶なんて理想的条件
もっとハードよりの泥臭い条件のテストすべきだった よくジョークで、スイッチ入れ忘れかといじるが、本当だったと、、 ヒューマンエラーだな
どんなシステムを作っても
使う人間がバカなら無意味と言う好例 どこの派遣社員がやらかしたのかな?
更新してもらえないなw 東証はともかく
証券会社は富士通に損害賠償請求すべきだろ
この日売上ゼロなんだから 東証の会見を信じるならって前提だけど
午前中に手動フラグで場は再開できたが証券会社との協議で途中再開するリスクのが高いってことで終日閉鎖にした
むしろ場中に停止してたほうが当日再開できたかもね
寄り付き前の注文があって取り消し再発注で証券会社側でなにか起こったら大変だし >>1
原発レベルで絶対止まっちゃいけないシステムなのにあらゆる事態想定出来てなかったって事だよな
別の業者に変えろ いろいろ想定してそういうパラメータも用意するんだろうけど
自動切換出来ない設定値ってよほどの時にしか不要な気がするけど
なんでよりによってその設定にしてあったんだろうか 自動切り替えをせず確認後オペレーターが指示を出すは割と有る。東証の組織のどっかで仕様変更が出ていた可能性もある。 年収800万の富士通ならこんなもん。
現場で作業してる下請けは人月50万だろうw テストはしたけど機器入れ替えやメンテのときに弄ったとかね >>97
手動ではできたけど
大事をとって前日取引停止 >>97
基本的に一つ問題が起こったら、
他の設定値は問題がないか調査する必要がある。
なんで、時間がかかる。 理系は完璧にできて当たり前、完璧にできないと0点
文系は完璧にできなくて当たり前、完璧にできて100点
だから評価や出世でどんどん差がついていくってのはあるよね >>175
市場運営の責任の所在が東証にあるといっただけじゃん
作り話とする根拠がそれだけならガバガバすぎでしょ とりあえず売買できなかった日の信用金利分は補償しろよ。バカじゃねーのか東証の宮原。 本番環境と同じテスト環境作ろうとしたら莫大な費用がかかる
それをユーザーは負担したくないからこんな事が起きる >>193
だから東証の作り話しで賠償訴訟起こすの???
ムリムリムリナメクジムリよっ!
>>182
テスト時にはきちんと切り替えできてるからそれはない >自動切り替えできない設定値になっていたという。
あるある 切り替えのテスト項目にこの事象での切り替えは入っていたかどうか? 本当か?
まあ、そう言うことにしておけば丸く収まるか >>23
某基地局の試験してたけど、ちゃんと試験してたよ。 >>32
最初から壊れたメモリー積んでテストは意味がない。
稼働中に壊れる様な事象を発生させるのが難しいだろう。
ハードウェアレベルの仕込みが必要だからな。そう言うメモリーを作るのと同じ事になるから、お金次第よ 東証がわざと切り替え出来ない設定にするタイミングなんて無いでしょあんの? >>160
これやな
オ…オレじゃない
ア…アイツがやった
シ…シらない
ス…スんだこと 完全にFのチョンボだなー
設定誤りの問題というより検出されてないことが問題。
定期的なBCPテストとかもやってないことが明確に分かった。
休日は取引無いから比較的テストしやすいはずなのに。 ネットサービスとしては極めて短時間の運用で
いつでもメンテナスしまくれるくせに何やってんだよ ドコモの空売り仕込んでた奴で自殺した奴いるだろこれw ホットスタンバイが有って自動切り替えするとか贅沢運用なので待機系は通電しないは割とある。ホットスタンバイだと2個ライセンスが必要だが止めて有ればライセンスは一個で良い類い。だからiOのエラー割り込みとかデフォルトでパニックダンプ取っておしまいとか多い。 リカバリテストか何かして設定前のデータ戻したのかな >>167
やめろよ
銀行システムだって切り替わるとき全支店に保守員派遣して問題がないことを24時間監視してってやってんだぞ
関係ないのに予行演習やらされる支店もあるんだぞ!
東証よりましだろ 「自動切り替えできない設定値になっていた」という原因はなんだろう? >>218
なんかのバージョンアップ時に設定がデフォに変わったとかよ、
意図せずに設定が変わってたとかあるよ。 >>83
悪意の内部者によるテロの可能性は?(´・ω・`) >>225
切り替わらなかったらどうなるか(まさに今回の事例)の試験をやるには、切り替わらないという設定が必要。 手動で再起動出来なかったのはその日の9時前に受け付けた取引が消える恐れがあったとか
約定は翌日になったら全部失効することになるから
後で面倒なことにならないように全日取引停止にした可能性あるぽい
ハード・ソフト面の問題もあるけどそれ以上に運用面のデメリットが大きかったと 設計、設置、メンテナンスは富士通だとして、日常運用は何処がやってたんだ?
自火報で言うところの音響止めてました的な奴ではないのか? >>211
ねーよ
出来る奴は評価高いし出来ない奴は評価低い
文系理系とか関係ない 新聞にはメモリーの故障テストはやらなかった書いてたぞ 凍傷システムサービスのオペミスかもしれんな
ただお得意様だとメーカーの責任にされる場合もある
原因不明が落としどころか テストした後設定ファイル戻すの忘れたんだなwwww >>195
まぁわからないでもないけど、なら寄付またぎで故障したら次からも終日止めますよってことだよな
やっぱり途中からでも動かせよ。時間を区切って10時からとか後場からやりますでいいよな
まだ嘘ついてそう >>13
マイカルでは結合テストの漏れの癖に
末端のコーダーにイチャモンつけるために偽装請負の親会社の偉いさんにクレームつけて
こっぴどく怒ってたなあw
お前ら馬鹿かと
そんなんだから潰れるんやで >>240
これもシステムの設計ミス
溜まった注文が副系に透過的に行ってない時点でおかしなシステム >>243
想定してないから対策もしてないんだな
原発の電源喪失と同じだな バックアップみたいなものがあるシステムって主と副を定期的に切り替えたりしないのかな
片方が更のまま次の更新時期が来たらもったいないのに ハードの設計ミスや故障じゃなかったんだね?
整定値ミス? まあ一番誰も責任取らずに終わるのがこれなんだろうな >>239
稼働前にテストしてるって書いてあるんだけど システムエンジニアが恐れているやつ!!
設定一行で、数字1文字の間違いで
こんなことになっちゃう!! >>243
○○テストはやらなかったのか?ってのは部下に責任擦り付けたい上司が使う常套手段だぞ。 本番で動いてるシステム触ってテストとか戻し間違えても動かなくなるかもしれないから相応の金を貰えないならやらない まぁこんなもんだよ!
あんまり責めるとどこもやってくれなくなるよ! >>258
異常系のテストなんてとことん抜けるよ
テスト仕様書に書かなければやらんからよ 何でこんなタイムボカンシリーズの自爆スイッチみたいな設定があるわけ? 東証「自動切り替えできない設定値」
東電「非常用電源も水没」
日本のトップ企業の危機管理はさすがだね
高給取りなだけあるわ 本当にシステムに問題があると短時間に回復しないから
パラーメータなどの初歩的なミスかも
凍傷システムサービスのミスかも そもそも客のシステムを勝手にテストなんて出来ないっての 東証レベルは贅沢設計だから自動切り替えじゃなかったのはシステムの目玉をミスったわけでまあF様も落穂拾いかな? >>225
外部設定できるって事は東証がイジった可能性もあるね
納品物のコピーがあれば富士通は助かるかもね こんなことあり得るの?
さすがにテストや訓練するだろ ネトウヨ「中国のサイバー攻撃だ」
富士通「テストする時間も金もなかった」 >>258
稼働前に、「切り替えのテスト」と「切り替わらなかった時のテスト」でどちらを先にやったか次第。
後者→前者がこういう事故が少ないのは確かなのだけど、
前者はシステム構築の終盤、後者はシステム完成後の運用マニュアル作成時に行うから、
設定戻し忘れで、という事態が起こる可能性は十分ある。 >>260
あぁうちの上司もそれ言った!
だから
「では皆さんのなかでそれを想定できていた
という人がいたら手を上げてください」
って言ったらみんなダンマリ
上司が自分の馬鹿を晒しただけで俺はおとがめなし >>274
原発みたいに
絶対大丈夫なはずの前提でテストしてたら無意味なんじゃない? >>266
Windowsだっておせっかいな自動機能を殺すような設定があるのと同じだ。
自動を嫌う客がいる。 >>246
テスト時ってのは納入設定でのテストなんで普通設定値は触らんとです
例外として設定値はこれでと指定ある場合に限り設定値を変更してそれができることを確かめてから設定値を戻すと言う作業になります >>34
富士通製品ってデフォ値が変なの多いんだよね
バックアップが初期値無効とか普通にある 誰が設定をいじった?
深く追求するのは止めましょうかね テストやるのが糞面倒で金かかるから適当にテスト環境作ってやった事にしたから起きた事 メモリ以外の故障パターンでも切り替えできるようにするのと、
手動での監視・切り替えオペレーションの確立
あとは今回と同じような問題が起きた際に1日待つのではなく、
もっと早く復旧するプランの作成
金融庁や官邸の調査チームがどのような勧告をするのかも興味深い >>264
正常系以外は全部異常扱いにするシステムじゃないと駄目だわな
let it dieってやつ >>279
それってその場では気持ちいいかも知れないけど、終わってる奴がすることだよなw 自動切り替えの条件を細かく設定しすぎていたんだな
Elseに行った場合に切り替えしない様になっていた 応答あるけど正常でない場合も切り替えないといけなかった >>6
取引止まってた日にトランプのニュース来てたら、色々な意味で大惨事になってたw ぶっちゃけると
早い話しが東証が冗長化のプロセスの一部を省略していたわけね。
んで、(ここ大事w)理由はない。
なんとなく省略してた。
なんか勿体ない気がしたとかそんなの。
で、理由があまりにクルクルパーだから
今更言い出せないwwwwwwwwwwwwwwwwww
原因を徹底的に究明して、二度と起こらないように対策をとると言う感覚と
困ったらウソついて誤魔化しゃオケって感覚とは
両立しない。
つまり東証はまたやらかすww
こういうの具体的に数値を示してほしいんだよな
そしたらリアルで信ぴょう性が増す >>261
普通に考えたら、本番機の設定値をわざわざ「自動切換不可」にして自動切換え出来ない事を確認するなんて怖い事しないからなw
東証が本番環境でそんなアホなことするとは到底思えない でもこういうことになるのって
再現性や何故かチェックしてもエラー無かったのに切り替わったとか頻繁にあったのかも知れん・・・
やっぱり怖いもんだよね >>285
有効にする場合他の設定値も含めて検討する必要があるからじゃね?デフォルト無効ってのはそういうことだろ。 >>290
?
それやらなかったら、逆に終わるだろ?
自己主張は大事だよ? ケアレスミスではなく
切り替えテストのテスト項目にそもそも入れてないと推測
テスト仕様書の作成者は今頃・・・ 切替のテストやった後に、作業とかテストで、一時的に変更して戻し忘れたんじゃないかね これは富士通のミスだろ
まぁ、東証の責任もあるだろうけどさ これだから富士通のスマホは素人判断で大丈夫?ってことになる。
例のなんとか「〜たかた」が盛んに富士通スマホを取り上げて煽って
いるがどうもアヤシイ?。やっぱ、スマホはシャープに限るかね?
いま、ヤフオクで狙っているんだが・・。w >>297
機器のファームレベルの設定値をユーザーがいじるのかね?
個人で使ってるPCじゃあるまいし。
普通は納入時に自動切り替えONにしてそのままいじらんぞ。 >>13
うちのシステムも、レビュー後に問題・改善点をリストアップしたけど、なんだかんだ理由つけられて直してもらえなかったぞw
なんで日本が戦争に負けたか今分かったろ?
猿「いえ猿だからやっぱり分かりませんキリッキリッキラキラ〜〜ン☆★」
>>307
相手は最初から言えバカと思ってるだろうな >>301
これから先、上手くやれるといいね
これが自己主張?とやらかは知らんが、どっちも責任回避してるだけで建設的ではない
まぁとりあえず自分語りはその辺にしとけよ >>306
こういうとき記者会見に突っ込めるような専門家を臨時で雇えばいいのにねえ
なせマスコミはそういうことしないんだろう >>305
そもそもスマホは国産がゴミなのでどっちでも同じよ >>1
前回のテストはいつですか?
今は亡きワトソン博士はなにやっていたんですかね テストは時給1500円ぐらいの派遣にやらせてるからな
ドキュメントに名前書いてあるけどもう他行ってるだろうし 切り替えテストは行っていた
定期メンテナンスで誤って設定を入れ替えた模様
複数の業者に委託しており現在調査中 >>1
パイロットみたいにチェックリストを作って毎回確認しろ >>324
切り替えテストが本当に切り替わるテストだったか? ハードの原因で切り替わらないという説明した人たちとは何だったのか >>323
しかも東証だしな。何人ものSEが死んだ噂は業界にいたら一度は聞いたハズだ。 でも東証が止まってくれたおかげで
客に「あの巨額の費用をかけたシステムでも止まるくらいですから、この程度のシステムで文句いうのは・・・」って言えるからありがたいです。 >>307
改善点によるけど、お客さんはこれ直すだけ、と思っている事でも、
実際には1から作り直したほうが早いレベルのものも結構ある。
そしてそういうレビューって、基本的に無償でやってくれるんだろという意識がある。
なのでとにかく出来ない理由をつけて断ることになる。 >>7
待避系のテストなんて本番はこんなもんだ
段取り上まともにテストさせてもらえん 死活監視で通信途絶の切り替えするけど、
死活監視は正常でメモリ故障っていうパターンが救えてなかったって話かね。 >>324
怖すぎwIT土方のファイルの管理クッソ汚いからな気を付けないとね >>279
クソワロタwww
それは、上司や他のメンバーが
こいつダメだと思ってるからやでw
能力ないなら、
時間が無駄だから黙っとけw 中国企業に定期メンテナンス依頼していたんじゃないか 誰が設定して誰が責任取るのかね
証券会社は東証に賠償請求しろよ >>323
派遣ってもグループ会社だろうから
辞めてさえいなければ追えるぞ
流石にこの辺のはガチ外部使わない、普通は! 俺も証券系のシステム関わったことあるが二度とやりたくない
金は渋い上に泊まったらどうするんですか?って詰めてくるからな
しらねーよw見合う金を出せw >>339
取引始まって以来のミゾユウの事故なので有ります >>1
で? その切替用の設定数値ってのは手動なの?
それとも自動で変動するの?
前者なら話は変わってくるぞ。 あー本番機の設定漏れ?
テスト機の修正が、本番機に反映されて無かったとかかな
混乱してる時期だろうからなあ
まあ、プロジェクト管理に失敗したってことだな しかしなんで日本はお金出さないのかね?
オーナー企業なら自分の金だけどこの手の企業って自分の金じゃないじゃん?
外資なんか他人の金だからとガバガバ金くれるのに 中途半端に死んでるときってバッチが動いてる途中でも強制的に切り替わるの? 手動でできるという時点で答えは出ていたのかもしれない 原因追求に本来なら現場にこないエース級を投入したら、あっという間に設定違いを見つけたんだろうな。
こんなミスのためにオレを現場に呼ぶなて感じでwww。 ミスなわけないだろ
誰かが故意にやった
もう誰だか見当ついてるだろ
一般に公表されてないだけ
バカが大騒ぎするから >>354
バッチというかトランザクションをキャンセルして、
切り替えてから再実行。 さっぱり理解できない、、
ドラゴンボールに例えてくれ いやー案外こういうのはあるんだよな
ヒヤリハットだわ >>346
∧∧ ∩
(´∀`)/
_| つ/ヽー、_
/ ヽ_(____/
 ̄ ̄ ̄ ̄ ̄ ̄ ̄
<⌒/ヽー、__
/<_/____/
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ >>1
完全に人災だな、パラメータ1個でこの惨状のパターンか うっかりオンにするのを忘れた
うっかり「オフになってる」と伝えるのを忘れた
うっかりオフにした
どれか知らないが、うっかり物の俺としては
「まさか俺みたいなやつに重要な仕事させてたのか…?」ってのが一番疑問 いいですか皆さん
これはそーてーがいなのであります
これはミゾユウなのであります
災害時の保障は致しかねます この流れでWindows10の更新批判をみんなでやりたい >>360
スーパーサイヤ人になれない理由を散々説明された後
そもそもサイヤ人でないことが判明した。 >>352
それか、本体とサブが実際切り替わると
何か不都合があって設定を変えていたとかか?
「危険度99超えないと、私は出撃しないぞ!」みたいなw 運用時に管理権限を持つ人が設定をかえたのだろう
その人を探し出さなきゃいけない >>14
被害者は世界中の投資家と日本国民全員だろ >>339
いくら案件単価は月80万でも、年収は残業込み額面300万円台だからな
そこはサービス外ですわ、請負元委託元で整理しろってこと >>300
例えばRAIDカードにバッテリーバックアップが付いててもデフォルト値無効なんだぜ
他にもメモリの割当が初期値128Kを1024Mに変更とかマニュアルに記載してたりする >>13
だから損害賠償求めないって話なんだろうね > メモリ故障による障害が起きた際、自動切り替えできない設定値になっていたという。
この文だと単なるケアレスミスだったのか、今回の事象に対応できない設定値だったのかがわからん
閾値設定って結局のところ経験則に基づくから難しいのよね >>325
何しても無駄
結局、勝手な事する奴が一人でもいて、事が起きたらただの無駄
全員馬鹿だと思って対策取らないとこの先も同じ事起きる
SEではないが、トヨタ関連でいつまで経っても人死になくならないのと同じ 普通はデフォルトのママで使うのが一番で、設定なんていじらないはずなんだけどね。
設定をいじれば必ずミスが起こる。 少なくともシステム管理者権限が無いと数値変えられないだろ
ディスクのキャッシュメモリのエラー見て切り替えるんだから
そうとう上のやつだなこのポカやった責任者w 自動切り替えができない設定があるのは良い設計だな保守点検もあるあろうから
ただちゃんと確認するマニュアルや手順書注意喚起がないと仇になるな >>83
いろんな状態を想定して何ケースもテストするんだよ
いろんな障害を模擬した設定を数通り用意する。
その後に、最終的に、本番用の設定に揃えるんだけど、
いろんなテストの為に設定をいじくり回したあとに戻し忘れたんだろうw >>23
メモリ故障は、難しいんじゃないかな。
今から故障させますって、やれなさそう。 >>354
システム的に運用ができているなら切り替わらない
処理速度が一定値以下に落ちた場合切り替わる
この場合保守に連絡しろという話になっている、俺の知ってるとこは >>360
ブルマ「孫くんを地球に呼び戻してちょうだい」
神龍「ダメだ、拒否された」
ブルマ「予備の願い事 考えてなかったわ…」 >>307
追加工数代金支払って納期延長してたらやってもらえたと思うけど >>380
システムって完全なロジックだから、最終的な原因はそういうもんだよ。
ただ、表向きには簡略化するために「設定値」つってるだけで、単純な1/0のスイッチとは思えないけどね。 この記事タイトル付けたやつはアホ
もしくは、担当者が責任逃れのため原因をすり替えたな。 まぁ日本を潰すには
東証のサーバー1つで潰れそうってことがわかった。
これはやばいなwww IT業界って頭が悪い人が上の方にいると、やらかした時の重大さを考慮せずに適当に作業割り振るからな、
作業の難易度より重大な作業かどうかのさじ加減が分からんとすぐ集中力切らしてミスるよ >>384
しっかりしたところだったら設定ファイルを配布するにしても
他の設定値が変わっていないことを示すエビを求められたりするよ
東証はそういう運用になってなかったということ
要はいい加減な現場だったってこと 古河三水会が諸悪の根源だ!
足尾銅山の鉱害がルーツ!! ザルすぎだろ
掃除のおばちゃんが電源コード抜いたくらい
おまぬけな結果だったな >>314
さすがにそれはないだろ
注文通りになってないこともあるからなぁ 記事にある「稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。」をガン無視する奴等 >>1
システムテストの手順が間違ってたんじゃないかな
何らかの理由で切り替えないパターンを追加でやっちゃったとか 通常はオペレータ権限で変更できる設定が管理されてるからな 相当上の失態だろ >>391
保守点検で設定なんていじるのかよwww。
どういう機械だよwww。
設定なんていじらなくても保守点検できるようになってるものだぞ。 >>384
どうせオンオフ程度の話っしょ、メンテ時にcfgファイルにbackup=falsって書いたけど戻し忘れたとかさ 検収では切り替えが動作していたが、今回は動作しない設定になっていたってことだね。
誰かが書き換えたのかな。。。 原因が今まで分からなかったということが大問題だろ
福島原発の設計図がどこにあるかすら誰も知らず
協力会社に全て丸投げし
東電社員はただ運転ボタンを押すだけだったので
メルトダウンが起きたのと同じ構図だろ 切り替えのシミュレーションやんなかったのかやれなかったのか >>344
全然別の会社もざらに居るぜ
あと転職してるのも >>335
納得しながらレス読んでて、最後の行でズッこけたよw 面白いこと言うじゃねえか
ちゃんと動くかいま一回止めてみろ >>416
あるあるだが、パッチ箇所以外は
変わってないことを確認するのが当たり前だから
やっぱり普通は起こらないだろう
低次元すぎる この件で外国人投資家が減ったら大問題だぞ
どうすんの?(´・ω・`) RAID障害の場合ならありうる設定だけど、RAIDのメモリーコントローラとRAMの障害ならフェイルオーバーしないとダメだろ >>422
中の設定値のどうこうなんて、
原因総当たりで調べていかない限り
そうわかるもんじゃないだろ。 >>349
>>398
それができりゃ苦労しなかったんだけど、予算と納期確定してたから追加できなかったから金で解決しなかった… ちゃんとしたシステム運用やってる会社なら
品質管理グループみたいな部署があって、設定ファイルなどを更新する際は
設定に間違いが無いかレビューで第三者チェックする体制が整ってる
東証&富士通はそうではなかったのだね つーか最初のメモリ云々の説明って何だったの?思い込み? >>411
稼働前しかテストしてないんだからいざって時に動かない
いずれ起きた障害だね まさかまさかの本番環境で変更してたのをサブ環境に反映させていなかった? 原因が特定出来ないから設定ミスにするパターンだろ
設定とか停止した時にすぐ確認するから
東証のゴミが原因特定して報告書出せってうるさいからな >>430
おれもそれを疑ってるけど。
デフォルトが自動切り替えしないていうのもクソな仕様だけどな。 >>431
外国人投資家はジャパンナッシングで気にしてないそうだぞ ディスクシステムのメモリーエラーらしいけどディスクシステムはどんな状態だったんだろう? ディスクシステムからエラーが帰ればさすがにフェイルオーバーは作動するだろう >>416
フツーパッチ当てたら最初に見るものは設定だからネーナw >>441
ハードの故障原因とシステム停止の原因は別 プロマネだがこの手の話はよくある話で原因は予想通り
しかし事故ゼロは現実的に難しく、そんな会社があったら教えて欲しいぐらい
最終的には運、不運の問題ってのが私の結論 >>445
1号機「よくわからんが、まぁ動いてるからヨシ!」 下請けに丸投げ丸投げで
実際にコードを書いてるのは
専門学校卒の最底賃金の派遣奴隷だからな
IT業界の闇よ >>354
ケースバイケースじゃなかろうか。
俺の知ってるのだと
「中途半端に死んでるときは管理に連絡して手動で対処してもらうこと」
↓
管理が手動で対応するため、自動的なロールバックは行われない
↓
「中途半端に死んでるときは自動ロールバックが行われない」だけが一人歩き
「管理に連絡して手動で対処してもらうこと」が忘れ去られる
↓
数年後、障害発生時「なぜ自動的にロールバックが行われなかったんだ! これは不具合だ!」 >>402
頭悪いとかじゃないな。
重大な作業ばかりする人に対して即時にその対価を払うことができるならそうすうだろうさ。 テストシナリオが全然パターン網羅してないんだろう。
HPならありえないわな。日本は多重下請け構造だからテスト実行したのも外注だしな。 日本の会社は利益にならないところは限界まで削る悪い癖があるんだよ
レビュー体制の不備ってのは大概の日本の会社に言えること >>455
原因が何であれ、何かがおかしいという判断は最終的にできるわけだから
監視の正しい閾値を設定すれば自動切り替え等はできてエラーを包括的にカバーできる どこかで設定をいじったアホがいるか
自動切り替えが出来るか試験せずにこれまで運用してたかどちらかだ >>405
元の設定自体が今回の事象に耐えうるパラメータじゃなかったとも読めるんだよねこの記事
テスト時にはたまたまうまく行くパラメータだったけど今回の事象は想定外でした、みたいな
まあ、>>418 のような場合は、>>405 の指摘するとおり 【人権侵害弾圧魔・生活安全部解体、防犯協会解散しよう】
やりすぎ防パトが各都道府県の警察本部生活安全部と防犯協会、創価学会の仕業である事は明白です。
例の防犯協力の要請依頼をして回る警部補らの正体は、生活安全部の生活安全総務課の課付き警部補であると考えられています。
問題はそれだけではありません。
この生活安全警察はとんでもないところで、重度の人権侵害行為を繰り返し、不正やミスがあっても隠蔽し、冤罪事件まで起こしまくっているという、究極の腐敗部門なのです。
昨年、警察署の幹部(警部補)が、リサイクルショップの女性店員を恫喝し、PTSDを発症させて、仕事のできない身体にするというとんでもない弾圧行為を働きましたよね?
あの警部補が属していたのが、生活安全警察です(正確には丸亀警察署所属の生活安全課幹部)。
生活安全部は業務として、例えば警視庁であれば、生活安全総務課の防犯営業第2係が質屋・古物商営業の許可を担当しています。
恫喝事件が報道された際、ネットでは、古物を担当する警察幹部の中には、同じ手口でリサイクルショップを恫喝し、本来なら買い取れないゴミ商品を買い取らせて、
小遣い稼ぎをしている者がいる、という噂が立ちました。
問題は他にもあります。
生活安全部には保安課があり、風俗営業係(風俗営業許可)、査察係(風俗営業査察)、風紀第1係(風俗事犯捜査)、風紀第2係(売春関係捜査)等の係がありますが、
一部の警察官が風俗店と癒着し、情報を流す見返りに、店のフリーパスを受け取っているなどという、ろくでもない話もあるのです。
その上、更に、ですよ。
ストーカー事件も生活安全部が担当しているのですが、幹部が、第三者からの働き掛けで、警察署が拒否したり、突っぱねるような被害届を受理させて、
ストーカーでっち上げ行為を働き、冤罪事件を起こしているとの噂も立っていて、被害を受ける人達が何人も出ています。
生活安全警察の実態は、人権侵害、人権蹂躙が横行する国民弾圧機関なのです。
防犯協会の実態は生活安全警察の外部拡張機関です。
※末端の防犯協会――役員に学会員が多い
※防犯協会連合会――警察OBが役員として天下り
※市や区の防犯協会――警察署生活安全課と同じフロアに事務所があり、金庫の鍵を同署員が保管
生活安全部を解体、防犯協会を解散し、幹部らの罪を問い、可能であれば人道に対する罪で死刑とすべきです。
防犯ネットワークは、都道府県庁、市区町村、防犯協力覚書を交わした企業・団体、消防署、防犯ボランティア、協力要請を受けた住民、創価学会からなる。
これを見て何か気付きませんか?
この防犯ネットワークは、地域に存在する全ての人、団体、組織が動員されているのです。
地域に存在する全ての機関、団体、人間を使い、特定個人を監視し、嫌がらせを働き、弾圧する。
つまり、警察が、地域の機関、団体、人間を警察の構成員として警察組織に組み込み、警察の手足として自由自在に動かして、国民を弾圧しているわけです。
全体主義そのものです。
こんな馬鹿な事をやっているのは、今時、中国共産党くらいしかありません。
その他に過去に行われていた国としては、旧ソ連や冷戦時代の東欧社会主義国くらいです。
ナチスドイツでさえ、ここまで極端な監視機構、弾圧機関を保有していた時期は恐らくないでしょう。
しかもこんな大掛かりで、異様な全体主義システムを採用して監視や尾行、嫌がらせを働き、弾圧している相手は、過激派でもなければテロリストでもない、ただの国民ですよ?
防犯活動だと言って、市民まで抱き込んで行われているのに、殺人事件や傷害致死事件、強盗殺人事件が発生するような、
危険な犯罪者が相手ではなく、防ごうとしている犯罪は、精々、窃盗類です。
どこの世界にそんな軽微な犯罪の予防阻止の為に、旧ソ連や冷戦時代の東欧社会主義国のような体制を築く馬鹿げた国があるのですか?
その馬鹿な事をやっているのが、日本の生活安全警察なのです。
非合理的であり、非効率的であり、ナンセンス以外の何ものでもない。
このシステムを作った人間が何を考えていたのかは知りませんが、旧ソ連や冷戦時代の東欧社会主義国の弾圧システムに傾倒し、好んで崇拝していたような、
冷血で危険な全体主義者だった事は明白です。
つまり、防犯ネットワーク自体を解体し、完全に破壊しなければならない、という事です。
生活安全警察はただの人権侵害・人権蹂躙を実行する国民弾圧機関に過ぎない。da それって原因じゃなくね?
少なくとも東証が欲しい回答じゃないね? その設定値が想定外だったという可能性は無いの?
単純に富士通側のケアレスミスならその部分に関わった担当者は病みそうだな >>441
メモリ故障は起きてる。それが起因なのは変わらない。
故障って厄介なんだよ。頭の隅に置きながら対処して、ロジックに問題ないことを確認しながら徐々に確信に変わるという 死活監視殺して切り替えはしてたけど
メモリ故障で切り替わるかは試験してない。
ここまでは理解したけど、
じゃあ、切り替わらない設定に設計したのは誰?
その設定値は確認したのか?した人は誰?
確認したとして、その値(もしデフォルトならデフォルト)で良いと判断した根拠は?
確認者は何故その判断を謝ったのか?
その判断の誤りを組織として確認する体制、プロセスになっていたのか?
とかどんどん深ぼる必要があるね。 東証の歴代社長
藍沢弥八 藍澤証券
井上敏夫 日本銀行
森永貞一郎 大蔵事務次官
谷村裕 大蔵事務次官
竹内道雄 大蔵事務次官
長岡実 大蔵事務次官
山口光秀 大蔵事務次官
土田正顕 国税庁長官
鶴島琢夫 東京証券取引所
西室泰三 東芝
斉藤惇 野村証券
岩熊博之
清田瞭
宮原幸一郎 Jパワー ほうほう。
つまり、設定値について、テストしないで本番に臨んでいるということだね?
他の設定は大丈夫かね? 信頼できるシステムならそんな設定に絶対しねーよw
まともにテストしてないんだろ おまえらがまず疑問に思った方が良いのは、なんでメモリ障害のときに切り替えをしないという設定があるの?ってことだ。 どっかで引継ぎミスがあった感じやな
2019年の改良工事が怪しい もっと大きい問題でそうな予感。
試験時に自動的に切り替えるともっと大きい問題が出るとか見つかって、そういう設定にしてたんじゃないか? >>462
個人的には、何か理由があって自動的な切り替えをしないようにしてた、
っていう可能性があるんじゃないかと思った。 >>472
おそらくマニュアル記載ないパラメーター ハードの設定は自動化されていて人災が起こらないようになっているところもあるんじゃないの 今回これが初めての事象ならまだ許されるけど、'2012年も類似の事象発生して同じように停止するはめになってるからね >>279
「では皆さんの中でそれを想定できていなかった
という人がいたら手を挙げてください」
でも、結局まわりはだんまりだろw >>455
ド素人の素朴な疑問だが、
こういう設定ってフールプルーフに出来ないものなのか? エラー訂正できないレベルのメモリ故障って普通に致命的だと思うんだけど、多少故障しても通すぜみたいな閾値があるの? 過去にメモリモジュール交換した事があったりして
交換中にフェイルオーバさせたくないから設定弄る→そのままで運用とか >>481
フェイルオーバーしても再びフェイルバックして延々繰り返すケースもあり得る めんどくさいことは全て奴隷に丸投げ
東証の人間はボタンを押すだけで丸儲け
これじゃあいつか破綻するわなwwww >>49
経験から察すると
・初期設定のまま
・上級意志決定者がその設定は不要と言った
・その設定値が出てストレージを調べたが
ディスクに問題がなく(メモリエラーだから)
この値は不要とした担当者がいた
意志決定した本人以外分からないパターン
下手したら本人も忘れてるかも >>480
あー、そういうのはあるかもしんないね
2012年も類似のことやっておいてなんでだろうとは思ってた >>491
x86 だと CPU に割り込み発生して、そのあとの挙動は OS が決める >>455
社長の話だと当日中に復旧は見込めたがホルダー含めて相談した結果、混乱させないように1日落としたらしいから、起因は明らかになってはいたと思う。
当日午後には復旧できることを確認済みだったろうさ。
リカバリーが出来ただけ良いと思うよ。 メモリーが死ぬってあんまり聞かないから想定してなかったんだろな こういう東証レベルのシステムってメモリ何枚刺しなの? つまり悪意のある誰かが設定値を弄ったということ?
それなら刑事事件だな。コナン呼べよ >>464
人間がやる作業に100%は無いって話
目の前に押してはいけないボタンと認識してても押す人は押してしまうからね メモリ3重ミラーしてるから大丈夫っしょ?という監視設計なのかもw >>3
初期値のまま設定してなかったんじやね?
設定しないと駄目なのに
納入時に検査してないの? >>501
いや、サーバー用メモリにはみんなECCがついてるくらいには、故障して当たり前のモジュールなんだが…… >>1
「メモリ故障が起きたら切り替える?Yes/No」
みたいなそのものズバリな設定じゃなくて
「どんなイベントが起きたら切り替える?」
みたいな設定じゃねーかなと予想 こんなん冗長試験していなかったってことか?
普通ではあり得ないんだけど。
やってないのにやった事にしてドキュメント改竄して成果物として提出して検収されてたら酷すぎだろ、これ。
構築PMは飛ばされてるな。
受入れチェックも甘かったとして東証側の責任者も問題うりで飛ばされるな、こりゃ。 >>472
どうせうやむやにするんだろ
誰も責任を取らない
それが日本 まあ予想通りだな
当日ハードじゃなくてソフトの可能性あるよと5chで書いたらなぜか叩かれたが
往々にしてシステム障害なんてハードじゃなくてソフトの問題なんだよ >>501
というか、メモリがしぬなんて利用者側(メーカーでないという意味)に想定させる必要ないだろ。
なんで製品の内部の部品のことまで考慮しないといかんの。
だから原因は別のことだよ。 >>488
デフォルトの設定値を自動切り替えONにしてデフォルトのまま使うようにすりゃええんだけどね。
マトモなメーカーの機器は普通そうなってる。
こんな設定値を客も富士通CEも普通はいじらないものだよ。
納入して設置して終わり。
何も設定をいじらない。
そうじゃなくて誰かが設定をイジる必要があるならそんなメーカーは潰れるべき。 故障の通知が出ればいいので実際に壊さなくても試験はできるじゃんよ
社内に同じ規模のハードウェアくらいあるじゃろ >>491
ハイエンドのUNIXサーバ系だと複数回のエラーを検出したらモジュールを切り捨てる 前の配信みなおしたけど、フェールオーバーが何故出来ないかについては、さらに確認するって話になってるな
で、設定値が原因だったってことか 本当にそんな単純な原因だったのか?
実は原因が分からず誤魔化しているのではないのか? >>502
メモリはメモリでもディスクのキャッシュメモリだろ今回w >>517
単純にON/OFFするだけの設定値ならそうだろうな
まあそんなわけないな スレの中で簡単にこれを言い切ったの
俺ぐらいじゃんwww
完璧でしたね。
このスレでは、
難しくて出来ないと否定されまくりました。
正直ちょっと気持ちいいです、ハイw >>493
フェイルオーバーを延々繰り返すてのは両方の機器に問題があるてことだから、
それは正しい動きじゃないの。
フェイルオーバーを延々繰り返すのがダメだから自動切り替えしないてのは、設計思想が間違ってる。 ハードウェアでも故障判定に失敗することがある
素子が短絡とかオープンなら簡単検出できるんだが
中途半端な抵抗値を持った故障モードに入ると
電源止まらずに発煙して大騒ぎになった >>522
切り替え機の中にHuawei製の謎のチップがwww(´・ω・`) >>100
「障害発生は有ってはならない」が故にトラブルシューティングマニュアルを作らない
真顔でこういう論法を説く奴がいたから怖い...まあ25年前の話やけどな。 >>505
100%はないのはその通りだけど、富士通は2012年にも類似の障害引き起こしてんだよなあ
監視設計が正しくなかったんじゃないのかってこと 皆富士通を悪く言ってるけれど富士通はちゃんと金だけ中抜きして下に仕事を丸投げしてるからね
だから悪いのは富士通じゃなくてこの仕事を投げられて実際に作業をしていた末端でしょ >>521
設定から原因は推測できていたけど再現テストに手間取ったのだろうね フェールバック許さない設定する
今回はそれ以前の問題 >>293
翌日には戻したんだから、むしろ閉まってた方が良かっただろ >>531
東証が会見でETERNUSって言ったらしい >>31
文系理系で解釈の異なる「難しい」だよね
350台ぐらいの規模で、さらに毎日テストをやってたと言うから、毎日1式潰す程度のお金が必要=難しい
と解釈した >>505
それで人が死んだら人間のやることだから仕方ないは通用しないよ。今回はそのレベル。
反対売買出来ずに追証払えず自殺した人がいてもおかしくないレベルよ。 >>526
フェイルオーバーとは書いとらん、フェイルバック >>541
富士通にシステム発注するのに
「おたくのストレージ信用ならんからそこだけEMCでよろ」
なんて言えんやろw >>532
末端がきちんと仕事しているかチェックする責任は富士通と東証にあるんだよ >>524
東証の書き方からして、そんな単純なわけではないだろうね。
用意された設定とは限らないし、こうすれば含められるって検討した結果のもんだとはおもう。
誤検知との戦いになりそう。 切り替えとか要らんねん
普段から並行稼働
片方障害で能力80%になる 最初、東証は富士通に責任を求めないって言ってたけど
どう考えてもそんな訳にはいかん状態だろ(´・ω・`) もうなんか恒例イベントと化してて
富士通絶対なんかやらかすって信頼感出てるの不謹慎だけど草 >>545
NECは某携帯会社からストレージはEMCに使うことを前提にシステム発注されたぞ >>543
その理屈が通るなら
自動車も飛行機も全部止めないとな 設定してなかったってことはメモリ障害を想定してなかったってことだろ
設定したやつが悪い ってか上長ごとお叱りだな >>551
そうなのか、無知ですまんかった
そういう事もあるんだな >>553
まあじっさい737MAXは全部止まって大変なことになってるわな >>44
そう言う分かりやすい故障は流石に切り替わるでしょ。 ハードウェア部門「メモリエラーからの復旧テスト?ソフトウェア部門がやるだろ。」
ソフトウェア部門「ハードウェア部門がテスト後に納品したんじゃないの?」 リダンダントなので大丈夫です、任せてください!
からの
障害で止まりました、さーせん これあれだろ、しきい値低くするとエラー吐く頻度が上がるから都度呼ばれるの面倒でしきい値高くしたら切り替わらなくなったんだろ。 所詮は 機械のすること 人のすること だから誰も責任を負わない
そんなもんやわ >>551
コストカットと不良品対策が必要なんだろ
東証は富士通1000倍プッシュの事実上のマネー全額言い値ってこと >>561
ストレージのメモリーエラーはストレージのドライバーソフトがやるからハードウェア部門がやるべきじゃね?
ソフトウェア部門なんて外部装置の面倒なんてみないぞ。 >>546
富士通も東証も末端の会社のことは分からんと思うぞ
そもそも何次請けまであるかも分かってないと思う
俺がIT業界で働いてた時は偽造名刺を持たされて下請け会社の社員と偽って現場に入ってたりしてたからな
マジで中は無法地帯でグチャグチャの状態だったよ
もうIT業界を辞めて10年ぐらい経つから今はどうなってるかは知らんけれど 稼働前派ちゃんとできてたんだか優秀なシステムじゃん PC用windowsはメモリーエラー出たらどうなるの? >>552
>同システムでは過去にも半年に1回ほどハードウエア故障が発生していたが、「いずれも数秒で切り替えに成功していた」
さすがに故障設計・対応は慣れっこらしいな。 >>371
単純に後で追加されたとかで、設定漏れじゃないかなあ こういう2重のシステムって監視部分が故障したかどうかチェックする監視は要らんのか >>455
あんた2流だな
1流は事故を予測して行動するんだぜ >>573
なんで他人のやること信用してるの?
誰なら信用するの? >>575
ストレージも2重化してサーバーも2重化すればいい。
監視部分てのはサーバーだから。 >>567
俺なら金に合わない仕事はやらない
ちな今回の出来事そのものは俺は予測済み 共有ストレージはクラスタのどれが現用になるかの調停に使われてたりする。なので共有ストレージの故障時は別の調停手段に切り替えるとか、その辺りの設定なのかな。 富士通製のサーバー使ってるとこは皆この設定確認した方がいいなw >>573
人間がやってることに絶対はないよ
夢見すぎなんだよな >>576
自分の脈拍止まったら
昇天なう
ってツイするやつ思い出した。 監査とかやってないの?
設定値の確認とか基本の基だと思うけど 本当に設定なのかね
別の問題なのに市場影響とか考えてそう言ってるような… 富士通製のサーバーてソラリスで、ディスクの監視ソフトてVxVMかね? >>549
裁判になると公に出来ないことがあるからだろ どうせ必要になる事ないだろw
と思って設置業者が設置だけして設定せず
あい!作業終わりやしたー!
つってそのままなんだろ >>582
末端の小さな会社だと金に合わないからやらないとかはできないんだよね
それやると次から仕事が回ってこなくなる可能性があるから
だから営業が何でも持ってきて技術者が客先常駐として客先で作業をするんだよ
俺はそれが嫌になってIT業界を辞めたけれど 去年の本番稼働から11ヶ月、デフォルト設定で動作。
サーバーパラメーターは、東証が指定して設定したんだろ。
東証側の担当が設定の意味を考えてなかった。
富士通側は、あとから変更できますんでと構築を先行、そして、構築部隊は解散。
そんなところだろ。金融庁は取引所もう一個作れ。まじで東証やばい。
日本経済のデジタル基盤にはならん。 どうせ何次受けかの下請けエンジニアだろうな
上層部文系幹部は逃げの一手 >>32
まるで自分は全てのケースを考慮してるみたいな書き方だけど、それならなんで非正規なんかやってるの? 切り替えされないようになってますけど何ですか?
さぁ?俺が来たときにはそうなってた。
構築時に理由があってそうしたんだろうけど、
経緯知ってる人ももういないし、そのままにしておこうぜ! 設定が原因て
つまり事前に(設定時に)分かってたという事じゃん
そしてテストしてねえじゃん そもそも「自動で切り替えない」っていう設定が必要なのかこのシステムに。 >>249
無料で働く能力?それビジネス的・会計的に無能では?ww >>3
初期値のままだったのか誰かが手を加えたのかで話が大きく変わってくるな テストでできてたのに本番でできなかってことは、設定値とやらが、いずれかの時点で変わってたってことだよね?
それはなぜ?
それを把握できてなかったのはなぜ? 問題:切り替えされなかった
→原因:切り替えされない設定になっていた
問題:問題が起きた
→原因:問題が起きる設定になっていた
小学生かよw ここに集まる奴等集めれば、盤石のシステムが出来上がるなw 完全に死亡しなかったからクラスタあるあるで切り替わらなかったんだなーって思ってたら
まさかの設定ミスww
まぁこれもあるあるなんだが…悲しいな >>607
変わってないよ
切り替えを行う設定にしたときのテストは合格していたというだけ >>563
誤検知の警報がうるさいからとブレーカー切ってた航空機事故があったな >>603
単体環境や結合環境でいちいちサーバー複数台あるとは思えないので、おそらく設定切らないとテスト出来ないから設定値で処理させるか切替する必要があったんでしょ 結局人が操作するものだから絶対はないんだよ。
アホがデジタル化は万全、原子力は万全安全とか簡単に言うやつがいるが
それも同じこと。
ミスや予想外がおこること前提で制度設定しなければならない。 >>592
誰も責任取らないよ
そんな国になったよ日本は >>603
開発中はそうなるのがウザイから、そうならないようにいじって後で戻しておこうと思うのはよくあること
そして後でしなければならないそのことを忘れてそのままってのもな
バカなゴミグラマーがソースコードに設定値ベタベタ書いて訳が分からなくなっていたんだろう
よくあることだ >>603
何もしなければ自動では切り替わらない
自動で切り替えるようにするためにはソフトウェアが必要
そのソフトウェアを作っていない まあf2のしたっぱ 管理職が詰め腹切らされて幕引きかねえ。 ハードのトラブルちゃうやん
管理ミスやん、アカンやん
しかし毎日しろとはいわんが、月一くらいで総合的なメンテしとるやろ。コレ見つからんのは勘弁して くっそ間抜けな原因じゃんか!
ただ、1年経たずに故障したハードも気になる
そんなに早く壊れるか? >>3
>>605
設定ファイルとかそういうものではなく、ここでいう設定というのは複合的なソフトウェアの仕組みの事だよ
いわゆるシステムと呼ばれるもの >>613
本番に反映されないことをテストしてもしょうがないだろうw 思うけど常に二重に稼働させて片方止まったら
切り替わるとかできないのか
事の重要度を考えたら三重でもいいよ >>609
自信満々で正しいものを間違ってる方に修正するマヌケの役ならまかせろ!w もう下請けに優秀な人残ってないの?
指示しなくても勝手に忖度してハイクオリティな仕事を安くしてくれる理想の下請け 予備がまだ完成しないうちに納期が来て稼働始めて、完成後設定変更するの忘れたんだろう >>1
構築ミスというか検証ミスだろ。
誰が賠償に応じるんだコレ? 腕のいいSEは個人事業主の方が儲かる。
ServiceGuardとか、構築100万円。
そして、納品後は責任とらんでいい、こんな楽なことはない。 よく現場でありがちなのが実務上、その設定を解除すること。指示を無視すること。
規定どおりだと現場がわずらわしくて仕事にならないからが理由。
しかし、結局それが重大事故のもとになったりする。
案外法律や規定をいいように無視するやつが出世したりする。
なせならそのほうが楽だから。 予備に切替わらない設定ってなにに使うの?
負荷テストとか? その動かないサブシステムに何億かかってんだよwww >>83
本番機でやらずに、
本番環境に似せたテスト環境でやったんだろ
>4日にシステムに適用し、
>自動切り替えが動作することを確認したという。
これも修正自体は本番環境に適用してるけど、自動切換えが動くかどうかの確認は、テスト環境だけでやってるはず 怪しそうな設定値を報告するツール作ったら良いじゃん
ワザとそうしてるというパターンもあるだろうけど、自動切り替えが出来ない設定になってたら一目で分かるようにさ 設定ミスだと賠償の可能性が出てくるな
仕様のミスだと東証側の責任だろうけど >>623
ハードなんてそんなもんだぞ?
部位問わなければ故障なんて一年で数回は起こる そもそもテスト環境はケチってホットスタンバイ何か無かった。この手のテストは本番環境でしか出来ないが、まさか本番機のメモリは壊せないからテスト出来なかった。とか言う落ちかな? こんな初歩的な原因で市場が止まったのは
世界初ではないかな
さすがトンキン、低能すぎるよ これ再発するぞ
故障が最初の原因だったならそろそろ他も壊れるし、大丈夫なはずとその確認も他人に丸投げだからね やはりだからこそ訓練が必要なんだろうな。
それでも不測の事態に対処しきれるのか疑問だが。 >設定値を変更すれば、自動切り替えできることが判明
故障か?これw まあミスは誰にでもあるが、そのミスをどれだけ事前に修正できるかってことで、皆頑張ってテストやレビューやってるわけだ
で、東証と富士通はどうなのかってことだな
如何に奴等がいい加減な仕事をしているか 問題
片方壊れたときもう片方に切り替わらなかった
原因
問題がおきる設定にしていた
対策
問題がおきる設定にしないように気を付ける
さすが東証のシステムともなると対策まで完璧だな >>646
監視条件漏れなら再発するなあ
今回入れ込んだ条件以外のエラーが出ちゃったらまたアウト >>479
単純に異常終了してくれってシステムも多いだろ
多重化だって東京のシステムが異常終了したら大阪のシステムに切り替えるとかある訳だし >>629
そんな人がやっすい金で下請けに甘んじてる理由はないしそうするべきでもない 日本金融の心臓部たるシステムで情けない事故
後進国と言われても仕方ない >>648
間違ったんだろ。
責任を負わされるから絶対に認めない。 まだメモリどうとか言ってる奴いるけど、そもそも設定値が切替出来ない設定値になってたって言ってんだから、サーバーが壊れた原因がメモリかどうかなんて関係ないんだよ 2000年頃はいたけどなあ、安くて優秀な下請け
バンバン使い捨てにしても次から次へと湧いてきてたのに
枯渇したのか >>83
想定してない部分で故障が発生したと思われる 本番でしかテストできんのか
これはまた繰り返すパターン 設定間違ったんだったら間違ったで防止策とか色々議論できるが、
システムをよく理解せず運用して自滅して迷惑かけたってんなら
もう東証側ではなんもしてやれんよな。 別に珍しい事じゃないし 特にノードを追加した時に
クラスタ構成やフェイルオーバーの設定変更を見落としそうになる事には留意している 昭和の日時入力になったままなのかも
早く西暦にせーや 上はプログラム書けない技術力がない、
技術部門は派遣非正規なんだから
プログラムがショボくて
ダメだったんだろうって
すぐ想像ついたわ。 顧客である東証がそんなのわかるわけ無いやん
どうみてもどこからみても富士通が悪い >>31
簡単じゃん 動作中にメモリをぶっこ抜けばいい >>223
制御系はするやろうね。
業務系は記事にもある通り、ハートビートを監視して一定時間応答無かったら切り替わるで良い。
色んな原因があるにせよなんか問題があったら予備機に切り替わるようにする事で停止を回避するからな。
その監視箇所が甘かったという「超初歩的なミス」ということ。 >>669
いや発注元は技術力持てよ
丸投げしてスポンサー役になるつもり無いなら技術つけろ 富士通に大丈夫ですって言われたら、東証はそうですかとしか言えない。
ここで富士通がテストをすべきですと言って、東証がそんな必要ありませんって言ったなら東証が悪いけど
どうみても富士通の責任のほうが重い >>673
いやそのために外注頼むんだし
切り替えの有無まで精通してるならそもそも富士通いりません 円を基軸通貨にとか寝言だったな
消える日を数えるほうが早い >>670
そうするとノード停止するから確実に切り替わる
今回はおそらく ECC で訂正不能なエラーが出ていて、半死状態になったと想定 USB接続のハードディスクを取り外して
再起動して再接続したら、全部のファイルが消えてた
なにやっても戻ってこない
ネット検索してみたらエラーチェックしたらいいって
エラーチェックして指示通りに修正したら戻ってきた
もうすこしでフォーマットしてた
なにがあるかわからんなコンピュータってな >>3が思いつきで勝手に「ファイル」とか言うから話がややこしくなってるな。 >>623
確率的に100年に一度しか壊れない機械が100台あれば、毎年壊れる 富士通と仕事したことあるやつならわかるだろうけど
あいつらすぐに、後日でとか、それは聞いてません、とか
役人みたいなこと言うからな。
平成の次は令和。切り替えしなければならないなんて
聞いてませんとかそんなのばっか。 「+1」を受け取ると「1加算」として動作していたのに、後任の担当者が「+」記号があれば加算という処理を怠ってそのまま変数に引き渡した為、、
単なる正数の1として処理されて、いくら数が増えても「1個」として機械が動作して大騒ぎ。 応答速度が遅くなってるのだから
原因になりそうな項目の数値を
読みに行って、
数値で分岐させればいいだけじゃん。
肝心な項目を入れていないか、
分岐させる数値がおかしいぐらいしか
考えられないじゃん。 わかりやすく説明しようとして逆にわかりにくくなってる典型的なものになってるようだが、
これは要するにメモリエラーで落ちても応答するようなものを
ハートビートに使う設定になってたってことか? 日本も市場集中原則ないので東証以外のPTSで株取引しても良いけどなかなか普及しない
米国だとNYSEのシェアは4割ぐらいしかないのに
これは国民性の違いだな
日本はPTSはどうも胡散臭く感じてしまう
「東証より有利な値段で取引できる」が謳い文句だが
それなら東証より不利な値段で取引してくれる相手方は誰なの?
という疑問が 自動でじゃなく手動でも出来ないんだろ
設定うんぬんより最初から破綻してんだろ >>677
装着するメモリにはテスト用のECC半死スイッチをつけること!
っていうのが解決策? >>685
もっと単純に、切り替えシステムのスイッチがオフになってたという認識。
切り替え試験のときはスイッチ入ってて切り替わったのにいつ誰がスイッチ切った???……という感じ。 >>688
実はそういうテスト用のものはあるが、極めてレアではある。 >>688
憶測でしかないけど、訂正不能エラーでたら、ノードが自爆する設定をしておく必要があった これ技術的に詳しく書いてないだけで、fail-stopの試験はやってたけど、fail-slowの試験の閾値が甘かったってだけでは? 自動でやると言っても障害検知がコマンドを自動発行するだけだから
むしろ自動でフェイルオーバーしないんだから、手動でコマンド投入して切り替える手順すら
用意していなかったのかな 配下のノード多数だと困難かもだけど 結局、問題は、ハードではなくて、ソフトだったわけだ。 >>691
いくらなんでもフェイルオーバーするかどうかの設定ミスではなかろう。
死活監視で死んだと認識できればフェイルオーバーはする設定にはなっていたが、
死活監視で使う手段の設定がメモリエラーでの停止時には生きてるように見える
手段を使っていた、ぐらいに考えてやりたいが。 >>675
だったら口挟むのやめて富士通の言う通りに従って金も満額だしてやれよ
知識ないやつらの言う通りに作るからおかしなことが起きるんだぞ >>667
この手のシステムで派遣非正規はほぼ居ないよ
俺らみたいな下請け、別の何かと勘違いしてないか? めんどいから現場盤みたいに自動、手動のセレクタースイッチつけときゃ良いよ。 >>696
ソフト的な不良が潜在していて、
ハード故障がトリガーを引いた >>697
こういう1の記事もまともに理解出来ない人が口出してくるのが怖えんだわ >>695
手動は出来たけど、今日はやめとこうという東証の判断とのこと。
だから事象そのものは明らかに富士通のやらかしなのに責任追及はしないってことなんだろう。
使えるバックアップを東証判断で使わなかったから。
(個人的にはその判断は正しいと思う) たしかメモリー故障時の試験は面倒な作業で
やらずにいたんだよな?
その顛末がこれだもんな〜。 もっと難しいタイミングで落ちてて、フェイルオーバーしたらデータ破壊の恐れがあるから
手動フェイルオーバーしたら危険で見送ったという話かと思っていたが、
こういうことなら、結果論だがメモリエラーを起こした側のノードを強制電源断したら
フェイルオーバーできてた可能性が高いな。 >>691
詳しい人相手だと、スイッチの言い方のほうが分かりにくくなったか、ごめん。 >>688
一応、ソフト的にそれを誤認識させるツールはある。
今はHPに吸収されたはずのNonstopだとそれでSE検証を実施してた 東証はLinuxだろ?
sysctl
kernel.panic_on_unrecovered_nmi
説明
メモリECCで修復不能なエラー、PCI通信の致命的エラー、あとサーバ管理コンソール(SVP/CMM/iLO2)からのダンプ取得のためのNMI割込み時に、panicさせるかの設定。
設定
kernel.panic_on_unrecovered_nmi=0:panicしない(デフォルト)
kernel.panic_on_unrecovered_nmi=1:panicする
これで自動切り替えだったんじゃね。でもデフォルトのままって事はTunedが上書き?kernel.panicなんか上書きする条件何てあったかな? >>704
あんたHAクラスタの構築やった事無いだろ。 日経コンピュータの「動かないコンピュータ」の記事になるのはかなりあとだろうから
もうちょっと詳しい状況欲しいなあ もう、AWSとazureで両建て良いじゃん。
サーバ障害はあっちの方がノウハウある。
こんな、バカな事に関わって、市場停止とかないわ。
MSとアマゾンのクラウドで構築しておけば、どっちか吹っ飛んでも、もう片方生きてる。 >>704
いやいや
> メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという
この言い回しが微妙でね。
電源装置が落ちたとかでノード全部が落ちたようなときはフェイルオーバーできるんだが、
死活監視の設定とかで、メモリエラー等の検出でノードが自発停止した場合には、
一部の監視手段には応答できるということが良くあるんですよ。
で、どういう状態ならフェイルオーバーさせるとかという設定が死活監視手段には
たいがいあって、ここの設定が不適切だと、まさに東証の説明通りのことが起きる。
クラスター制御の設計をやる時には留意しなければいけない点の一つです。 処理要求量に比べてn秒後の処理完了量がちっさすぎー
あー?よくわかんねーけど切り替え要求しれー
を一所懸命考えた挙げ句の、
処理要求0の場合についてのお猿さん、なら許す >>717
> 一部の監視手段には応答できるということが良くあるんですよ。
あるわーアルアル >>715
どちらかが倒れたら切り替えができませんwの未来がw >>627
まさにそういうシステムだよこれ
正副2つが常時動いてる
ただ切り替わるべきところで切り替わらなかったから障害の内容を確定できない以上正副両方とも止めるしかなかった >>697
OSは生きててアプリだけ落ちるパターンなんかかな。 >>721
切り替えんでいいよ。
証券取引が継続すればいいだけだから、昔の東証、大証体制。
東証=azure で大証=aws
価格のさやとりするやつも出てくるだろうが、このやり方で、ブラックマンデーも震災も対応できた。
システムを密にしすぎ。 システム基盤の詳細設計書はどうなってるんだろうな。
設計ミスか、設定ミスか。。。 >>699
どこに満額出してないなんてかいてあるんだよ。ソースは? >>712
メモリーエラーてサーバーじゃなくてストレージ側の方だから、linuxの設定なんて関係ないwww 技術者向けと割り切った説明を事例共有のために
富士通あたりから出してもらえんかな。
あまりにひどすぎて言えないって類のものならしかたないが、
この説明ではいまひとつすっきりしない。 これは被災・障害試験やってない証拠
やってもペーパー >>717
>いくらなんでもフェイルオーバーするかどうかの設定ミスではなかろう。
>で、どういう状態ならフェイルオーバーさせるとかという設定が死活監視手段には
>たいがいあって、ここの設定が不適切だと、まさに東証の説明通りのことが起きる。
君、書いてて違和感ないの? これは富士通の担当者が泣くまでなぜなぜ分析する流れ >>724
スマホとかでも画面は死んでるが
電話の着信はできちゃうみたいな故障
応答があるので相手は出るまで鳴らし続ける >>733
このあたりは実務経験がないと理解が難しいかと思います。
死活監視手段の設定は現在では多くの場合フェイルオーバー制御とは
モジュール性が高く作られています。 >>730
なんでこうクラウド知ってますアピールできるのかな
恥ずかしくないの?
東証のシステム要件(レイテンシなど)知ってたらとてもじゃないけどそんな発想にならないんだけど ようは単純な設定ミスが原因で、たまたま今回の起因がメモリ故障なだけなのに、メモリがどうたらこうたらと
余計な情報くっつけて情報を整理できずに自分で矛盾したようなこと言い出すのはちょっとな 素人が考えるに、システムが死ぬにしても色んな段階があるって事? >>731
やったから起こってる可能性もあるからなんとも……。
今回の件がそうと言うわけではないけど、ぶっちゃけシステムが障害起こす原因の多くはアップデートと試験。
どちらも「通常では無い状態」を「ヒューマン」が触るから、おかしくなりやすい。 >>740
人だって、即死もすれば、脳死にもなり、半身不随にもなり、死んでも髪だけ伸びてたり。。。 下請けは地獄だな。
出入り禁止だ。
来期の業績悪化させたところが責任とらされたところ。 >>717
なれる!SE
とかいう漫画だかラノベだかでそんなのやってたな。
「死ぬならきっちり死ね」
ってSEが殺したせいで、復旧はしたがアラーム鳴りまくりとかいう展開 >>740
わかりやすい例としては、この手のシステムで使われるコンピュータには
たいがい本体CPUとは別に
BMCなどと呼ばれる独立した管理プロセッサがついていたりするんですが、
本体側OSが障害検出で死んでもこいつは動いています。
(管理プロセッサがOSが動いているかを監視している場合は、OSが止まったことには
管理プロセッサは気づいていることがあります。)
で、これが動いているかを単純に監視していたりすると、本体のOSが停止しているのに
動き続けていると思ってしまうとかいう失敗事例があったりします。 なんつーかさ
サブシステムがうごかねぇんじゃ意味ねぇんだよ どんな状況が起こってもメインが止まったら自動的にサブに
メインが復帰したら自動で切り替わるようにしとけ
サブも後2組くらい用意して マジかよ
メモリ故障では検出できずに切り替わらなかったのかと思ったらまさかの設定とはな
パラメタ定義は全て説明して承認を得てると思うがオプション項目で設定ファイルになかったんかな?
承認してたなら東証も富士通もアホだしオプションとかで漏れてたなら富士通がアホ だから、
>メモリ故障が原因の障害パターンが発生した際、自動切り替えできない設定値になっていたという。
これをそのまま理解したらいいだけw理解できず変な理屈こねるから余計分らんくなるんだよな それにしてもストレージ装置自体を2重化するなんてよくある構成か?
オレEMCのストレージいじってたけど、EMCじゃストレージ装置自体を2重化なんて聞いたことないぞ。
オレの中の常識はストレージ装置は1個で、ストレージ装置内部でコンポーネントが2重化されていてストレージ装置が止まるてことはありえない。
富士通のストレージ装置て止まること前提にシステム構成するのか? > メモリ故障による障害が起きた際、自動切り替えできない設定値
wwwwwwwwwwwwwwwwwwwwwwwwwwwww >>725
なるほど確かにそれなら
>>748
今回はその切り替える設定をポカしたんよ >>83
障害が起こった時自動的にシステムが設定を変えた
連続障害が起こらないように
そうなら理屈は通る 間欠障害でもありうるしアラーム出さずそのままにしてた事もあるだろう >>746
なるほど、部屋の灯りが点いているから在室と思い込む様なもんですね もうちょっと、気持ち少なめで調整してみ?
ほら、切り替わったやろ。この数字でええんや。
念の為保険でもうちょい下げとこっか。 >>752
これは、かなり高いレベルで動くプロトコルを処理する
データストアを富士通が自製してるとかじゃないですかね。
もしくはファイルサーバのフロントエンド相当を富士通が作っているとか。 >>752
んー自分は電話系やってたけど2重化してたよ 株価が上がっちゃ困る空売りしてた機関がなんかやったんじゃないの? >>1
へえー 10/1にそれが偶然おきたんだー へえー へえー >>1
切り替え設定が無効になってたのに当日気付かず、今の今まで誰も気がつかなかったん? SE「自動で切り替わらない?手動でやれ!マニュアルあるだろ?」
OP「ありますけど書いてある内容がよく分かりません・・・」
SE「今日は休業しよか・・・」 ミスが起こるのは人の心が濁るから
職場環境の圧と休養の不充分
結局、どの上場会社も東証も「辞められない会社ごっこ」をやるしか脳が無い だったら手動で切り替えればいいじゃん
なんで丸一日潰れたのよ >>763
あんただって毎日Windowsのコンパネやらスマホ設定なんてみないだろ。
このくらいのシステムの設定なんてインストール時に設定してほったらかしてのがほとんどだよ。 >>769
いやいやいやいやいやいや、個人のPCと比べていいようなシロモノじゃあないない >>769
障害出て切り替わらないなら何で切り替わらないなか真っ先に確認するでしょ
当日は原因不明って言ってたしさ >>770
そーだったのか! ドイツのせいね!
国際電話でメルケルに文句いわなきゃ! AWSとかだったらメモリ不良ならメーカー名公表するんだけどな
これは闇から闇だな 半死でハートビート返してたとかいうヲチだろ。
ファームバグか? >>637
今回は形振り構わず本番環境で確認したと思う。 >>774
闇でいいよ。
メモリ障害なんかどのシステムでも一定確率で発生する。
それをクリアできない運用を看過していた責任の方が圧倒的に大きい。 >>772
「当日は原因不明」てのはマスコミ発表にそう発表したてだけで、内部的には速攻分かっていたと思うよ。
数日調査して結論が設定ミスでしたなんてどんなアホが調査したんだよwwww。 >>776
と、思うじゃろ?w
シミュレーションだけなんじゃよw 何で切り替わらないんだ?
あれ、切り替え設定がOFFになってる(ここまで30分)
切り替え設定OFFにしたの誰?
記録残ってねぇなぁ
紙の日誌に残ってない?倉庫にあるだろ
うーん何も書いてないな
当時のチーフは〇〇さんか、覚えてないかな
とっくにやめて◇◇さんに引き継いだんじゃないかな
電話してみて
聞いてないって
結論:切り替えできない設定値になっていたからでした >>777
指詰めどころか辞表書いているだろうな。
無論受理されず、
社内処分後の受理
(給料も処分後になるから退職金も下がるしかない) ストレージ二重化とか普通だろ
筐体1つ=シングル構成ぐらいの認識でないと障害には対応できんぞ >>779
じゃなおさらそんな単純ミスで終日止めた理由にならんがな >>763
設定項目が何個も何箇所も分かれてる上に
オンオフでは無く時間などで細かく設定されている箇所だったんじゃね?
>>773
ガチでドイツのシーメンス製の可能性あり >>783
金かなんかケチったんでしょ
誰も責任取らなくて良いから誰も本気でやらないし >>781
これに近い話だろうな。
容易に想像できる。
機器のファームウェアを直接叩く所の設定値だったら、
再起動必須のケースもあるし。 去年から謎のディスクとメモリ廻りの不具合で止まるサーバーが多いよな そういうことにしといたほうが東証も安心するだろ
再現性がないため原因特定はできませんと言うより >>783
そうか?
マスコミの報道がどれだけシステムの構成を正しく伝えているのかはよくわからんが、それはストレージがしょぼすぎるんじゃないのか?
アキバで売ってるストレージならそうかもしれんが、企業で使うようなストレージはメモリエラーごときじゃ止まらない。
ストレージ装置内ですべてのコンポーネントが2重化されてるから。
そのくらいストレージ装置て信頼性が高いものだよ。
誰かがストレージ装置の停止ボタンを押さない限り停止しない。
ストレージ装置を2重化するなら、普通はシステム全体を2重化する。 くぁわしい人に聞きたいんだけど
未設定だとして上位の問題ではあるものの仮にこれだけなら単純な手動で午後には別のバックアップを
起動させて午後には復旧していたと結論付けたってことでいいよね? ハッキングかな?
侵入されたとか口が裂けても言わんよね >>7
普段はセキュリティのため非常扉に鍵かけてて
災害時に扉開かないってありそうじゃない 富士通のミスだろうが、そのミスを見つけられなかった東証にも問題ある
何もかも富士通に丸投げで殿様商売やってたのなら糞 >>791
ブレードの可能性もあるのでは?
それならエターナスの2台構成はありかと >>778
この障害の確率は低いだろうだからある程度の定期的な予防訓練は必要だったんだろう
例えば火災に備えて消火器の消化液の効き目が無く、且つ新人運用者が消火器の位置さえ
認識してないように
今回のシステムにおいては殆どの運用者が自動バックアップ機能は無視状態だったんだろう >ストレージ内でメモリ故障
家庭用PCに当てはめるとどの部分?
SSDのDRAMキャッシュとか? >>768
異常に気づくのが遅れたんだって
それで場明け直前に気づいてギブアップした
つまり結局監視の問題 メモリエラーだったらストレージ関係ないんじゃないの これ、原因特定が早かったら、手動で立ち上げて早い時間に再開できてたじゃん
バックアップが動かない・動かせないってのは人災じゃん >>791
ストレージだって色々な理由で止まるし壊れるぞ
そんでストレージのデータが呼べないからシステムダウン(フロント側を切り替えても無意味)が発生するんだわ
物理サーバやスイッチより多少壊れにくい程度の扱いじゃないと問題でまくるぞ >>801
SSDがRAID1になっていて、パラレルで書き込む部分の
キャッシュメモリーが壊れたが一番イメージが近い。
パソコンだと一部品で動作設定は既定値だけだけど、
今回だと19インチ2Uぐらいあって、動作設定も
マニュアルが50ページぐらいある機器になる。 >>801
まあSSDのDRAMキャッシュでも間違ってはないが、
家庭用PCでいうならこんなような装置の中にあるメモリエラー。
https://www.qnap.com/ja-jp/product/ts-453d
で、企業用のやつはメモリエラーが起きても内部的に処理されて止まらない。 >>805
>>ストレージだって色々な理由で止まるし壊れるぞ
それは使ってるストレージがしょぼいだけ。 >>障害が起きた際、自動切り替えできない設定値になっていた
実にすばらしい >>809
エターナスもネットアップもなんだが?
ストレージが1つで大丈夫とか頭大丈夫かよ ゴキ一匹見たら〜じゃないけど、このようなヘボミスの裏には危険なインシデントが何十個もあるのが普通
こいつらはまたやらかすだろう >>812
正式構成分からんし、
オプションもわからないから、
何とも言えない。 IT業界のあるあるなんだけど兆単位の機会損失をどうするかだねぇ >>813
全世界的に見れば、MicrosoftもGoogleも
年に一回はやらかしている。 >>10
テストはしたんだと思うよ
別のテストをするときに臨時で設定を変えて戻し忘れたとか
そんな感じだと思う
情けない話だけどね こういうのは100%マンエラーなんだよな
何故なら検証するのが人間だから 予想シナリオ
運用が指さし確認で二人で手入力になっていた
コピペダメ ぜったい みたいな
値切られてワンオペになってミス or
ベテランと新人ペアでザルチェック >>1
そのテストは実稼働舞絵にやっておくべきだろう?
東証だぞ?子供の仕事じゃねーか
システム担当は全部総取っ替えせんとあかん基本姿勢がなってない
これは検証の担当部署分課に通ずるはずだ他の大手金融じゃあり得んミスだ >>818
テストのためにシステムの設定を変えたら、何をテストしたことになるんだろうね。
本番で使う状態の設定のままでテストしないと意味ないんじゃね? >>800
その消火器の話なら面白いものがある。
放置してれば10年使えるのに、法律で決まった点検をしたら毎年1割2割の確率で使えなくなる。
最初の納入時のチェックが1番条件が良くて厳しく出来るのだから、下手に触らないほうが良いケースの1例。 >>822
では、何故自動切換えOFFみたいな設定があるんだろうね >>825
自動切換えするかしないかのテストなんて富士通が工場でするものだよ。
ユーザーが、自動切換えの設定をいじって自動切換えするかどうかのテストなんてしないわwww。
あんただってクルマ買ったらハンドルを右に切ったら右に曲がるかなんてチェックしないだろwww。
東証が自動切換えで使うて言うなら導入時に自動切換ONにしてそれでおしまい。
自動切換の設定をいじる必要性はないわ。 >>40
ジェイコム株誤発注 東証に107億円賠償命令が確定 最高裁・・・
何てのがまた起こるのか・・・ >>827
私は彼らを擁護しているわけではないよ
でも話が合わないから、これで終わりにする 日経xtech がちょっとだけ詳しい記事出してる。
これ、active-active 構成の2ノードクラスターのNASらしい。
NASの設定ミスと言ってるが、どういう設定かは無料範囲内では読めないけど、
もともとの設定項目にはあるもので即日変更適用したようだ。 従来の方式や認識じゃもうダメなんだよ結局はできる人に頼ってきたツケ
この手の人材不足からくる問題想定してるの2025年問題だっけ? 意外と海外ではこういう内的要因でのダウンは聞かないよね。台風とか外的要因は聞くけど 急にHDDがお亡くなりになったワシとしては他人事に思えんで〜 >>835
これにちょっとだけ付加情報が付いた程度。
ここから読み取れる複数の可能性のうち、どれかっていうのを特定してくれたぐらい。 >>837
1号機の下から1号機用ディスクと2号機用ディスク両方につながっているっていう図なのがよくわからないな >>1
しかし、根本原因の究明はあきらめちゃったのかいな?
途中の原因-スイッチがOffの状態だった
根本原因-なぜスイッチがOffの状態だったのか、誰がいつOffの状態にしたのか(HW納入されたときからなのかも含め)
根本原因わからないと、責任の所在も再発防止も
できひんでー。
おら、心配でアローズ使えなくなっちゃう >>836
【おきのどくですが ぼうけんのしょは きえてしまいました】 >>838
これ、1号機用ディスク、2号機用ディスクという書き方がわかりにくくて
複数の構成の可能性があるんだが、
Active-Active のNASの場合、
両系が動いている状態では
主に1号機でサービスする領域、2号機の領域とかいう具合に負荷分散されていて、
片方が落ちた場合でももう片方がその領域を格納しているディスクを引き継いで
サービスを継続するという構成がとられたりする。
(こう解釈する場合は、ディスクレベルでの冗長化は図示されていないということになる)
たぶんそれを表しているのだと思うが、もしかすると別の冗長化方式の図かもしれない。 原子力事故と同じヒューマンエラーかよ
東京はクソの集まりだな arrow head って、矢じり(矢の羽がついてるほう)の意味らしいけど
いまの状態だと、arrow head = 頭に矢がささっちゃってる人イメージしちゃいますよ。
右耳から左耳に矢が貫通してるのに、ふぅ、致命傷ですんだ、っていってるキャラね。 運用は気づいてたけど、変更指示がいつまでも来なくてそっ閉じしてた案件かと もともと、メモリ故障による障害発生は考慮してなかったんじゃね?
富士通的には仕様通りなんだろ。
多分、要件定義に出てなかったからやってないだけ。 常に3台動かして2台と違う動きをしたら予備に切り替え
その間に修理 バカなお前らが必死に知ったかコメントしてるの見てると笑えるな >>839
根本原因は追求しても多分無駄。
最終納品物を納品してから設定を変えたか、
最終納品物と実機の設定が不整合を起こしたかのどちらか。
DCにあってリモートで操作するか実機を操作するのかいずれかがだから、操作記録は残っているかもしれないが、
運用側の責任になるか構築側の責任になるかは
半々かな? >>848
多数決制御はこのシステムではコストよりも性能的に厳しいと思います。 >>833
昔、googleがオペミスでフェイルオーバーに失敗してた
ただし、ストレージというレベルじゃなくてデータセンターのフェイルオーバーだけど しかしメモリ故障リカバリの実績なんで派手な宣伝材料にもならんし公表もしないだろ
低品質メモリ使っているからだのひんしゅく買うくらいか
しかし高速運転中と比較的夜間の通常運転時とでも分けてシステム造りしてるのかな >1人のデバッガーが退職したら、その後上から「バグが減った」「完成までの時間短縮」と『評価』されて多数の人が他部署へ栄転した こんなやつらが原発とか動かしたり管理するんだからな >>854
そもそも最終納品物と言っても、こういう一点物のシステム物は、納品後からが本番的なところもあるからな。 >>838
https://library.netapp.com/ecm/ecm_download_file/ECMP1659142
この資料の「HAペアの接続とコンポーネント」、「HAペアとクラスタの関係」に
書いてあるような接続ですね。
実際の結線は「HAペアの設置とケーブル接続」を順番に読んでいくと
54〜56ページあたりに書いてます。 システムの異常を検知したら代替機に切り替わるスイッチを、故障の原因ごとに設定しているの? メモリエラーってα線源置けばテスト出来るんじゃないかな? インフラ等の24時間365日稼働してるシステムと違って
いくらでも検査やチェックができるのにこんな事態を引き起こしたのは怠慢以外の何物でもない こんな流れ?
東証停止→HDD故障→富士通のメモリフェイルの実テスト不足では?→東証の設定ミスでした >>862
12ページみたいな構成になっているのか
資料ありがとうございます ハードなんてあり得ないと書いたら真っ赤になって否定するヤツがいたわ
富士通の誰かだったんだろうか
国内ベンダーは外資系ベンダーに原因押しつけて自社製品売りつけたり責任転嫁するから顧客は気をつけた方がいい
もっと気をつけるべきは国内コンサルw 富士通のレベルの低さを証明するかの様な低次元なミスだな。まともにテストしていない証拠でもある。 >自動切り替えできない設定値になっていた
じゃあけっきょくハードの故障が原因じゃないじゃんシステム全落ちの原因
普通に仕事のミスじゃん >>873
トリガーはハードウェア障害。
それを復旧出来なくしたのは
運用側の責任か構築側の責任か半々。 >>14
不治痛は何かトラブル起こるとすぐに
下請に責任転嫁するから >>834
不治痛に金融システムやらせたらアカンな こう言うのって毎年監査受けてんじゃ無いの?危機管理対策として当然の事でシミュレー結果も証票として提出するはずだよ?結局は国の監査もガバガバって事だよ https://library.netapp.com/ecm/ecm_download_file/ECMP1659142
このURLの20ページ抜粋
テイクオーバーが発生する状況
HAペアのノードでパニック時のテイクオーバーが有効になっており(デフォルト)、
そのノードでソフトウェアまたはシステムの障害が発生してパニック状態になった場合
「パニック時のテイクオーバーが有効」この設定が無効になっていたのかも?
メモリのアンコレ(修正不可能)が発生⇒パニックリブート⇒設定が無効の為テイクオーバーせず。 >>878
もともとNASの設定項目にはどうなったらフェイルオーバーするかの
設定項目があって、設定次第では今回のケースにも対応できたみたいだから、
設計の想定内ではあったようだ。
設定をどう選択するかの段階での検討ミスだったように今までの説明からは思える。 45歳 リストラ要員
新規の勉強だけに集中したいところであります。 1号機がダウンした時は2号機に切り替えますのチェックボックスに
チェック入れてなかったw
その設定ミスの責任は?東証?富士通?
運用だから東証か? ヘライザーYouTubeチャンネルでは
石原さとみショックでシステムダウンっていぅてたけど間違いだったのか >>883
障害は起きたがパニックではなかったんでしょ
大幅な遅延であって動いてたみたいだし 2年後くらいにパッチ適用で設定をミスってダウン
したりしないことを願うわ >>889
おいらはパニックだったよ。
売り注文が固まったままだから、PTSで売ることができなかったよ >>887
2号機がダウンしたときに1号機に切り替わるテストはしたけど
1号機がダウンしたときの設定が漏れてたとか >>889
ああ、メモリのコレクタブルエラーが起きすぎて動けなくなってるような状況で
死んでないがまともに動けない状況でどうするかっていう設定が
フェイルオーバーしないという設定になってたというなら理解できなくもない。 >>887
そんなチェックボックスついてるとは信じ難い >>1
富士通と東証は定期的にトラブルシューティングしてないの?
どう責任を取るつもりなんだろ これ他の富士通が作ったホットスタンバイ運用するシステムも同じ設定値になってないのかね。 NTTドコモの顧客システムALADINも富士通だしな メモリ故障を想定したシビアアクシデントを想定しません
っていうのが日本あるあるすぎる(´・ω・`) >>897
9/30から10/1で担当が引き継ぎになった。
で、運用ルームに入ったら
「このボタンだけは絶対押しちゃだめ!」ってメモ貼ってある赤い大きなボタン
があって、どーしても気になって押しちゃったら、スイッチOffになっちゃった。
たぶん真相はこれだ! ネトウヨ 「日本スゴイ!!日本スゴイ!!日本スゴイ!!」ヽ(゚∀。)ノアヒャヒャヒャ 下請や外注、派遣に丸投げして本番直前までこぎつけたからヨシ!でそいつらはポイ捨てしてまともに引き継げてないもしくは引き継ぎ内容すら理解できてない
探せば他にも沢山あるだろうな露呈してないだけで 複数動かして突き合わせる?多数決でゾンビの発見?
そんな石橋を叩きまわすシステムは無駄、滅多にない事のためにクソたけぇだけじゃん…
それも実に日本あるある タイトル戦読んで苦笑いしてしまった。
コレは重過失だろう。。。テストしたのか? で、この一件で生じた損失は誰が払うの?(´・ω・`) >>905
昔の現場でホントにそれをやらかした奴がいる。 損失補填しますと言ったら
いくら補填してほしい?
何も損害受けてないでしょう? 設定ミスなんて星の数ほどあるだろ
最低でも商用、疑似、開発環境あるうえ大人数だし担当も別々だったりするし
どこかだけ設定ずれてるなんて日常だろ
万が一のときの障害のテストなんて非合理すぎてあほらしくてやらんわ 本来なら韓国や中国から出てくる話
三流国が確定した瞬間である >>914
マジレスすると、考慮すべきは発生確率じゃないんですよ
期待値(発生確率x被害額)の大きさなんです。
アローズ1日飛んだときの、被害額(評価額)は、おいくら万円?w? >>914
万が一が許されないシステムで非合理とか関係無い。
万が一を起こしてしまった事に対して言い訳せずに正直に出してるのはましだがな。 メモリテストのために「γ線銃」が標準装備になったりな >>921
その為に二重三重のバックアップ組むんじゃね? 今更判明かよ、しかも人為的ミス
てか、原因なんかすぐ突き止めて手動で切り替えろや
何重にもミスが重なって起こるべき大惨事が起きたな
ハインリッヒの法則 >>920
だよね、こんなことはよっぽど運悪くないとおきないよねー
ってチームメンバーの誰かが口にだしたパターンは、運用期間内に
ほぼ現実化するもんすw 原発の事故から何も学んでない
北朝鮮に全銀行の預金を全部盗まれるとかあるよ >>925
「まさかこんな馬鹿なまねしないだろうな」とかいうのに限って現実に起きるからなぁ 自動切り替えできない設定値になっていただけでは原因を特定したとは言わないだろ
なぜそのような設定値になっていたかまで特定しろよ >>924
東証がリスク回避で手動切り替えをやめてる。
切り替えをするにしでも、やめるにしても、きちんとトラブル時のシークエンスとして判断できてるから、今回のは悪い結果ではないよ。
そりゃあ完璧が一番だけど、今回の状況を許さない文化があるからこそ、
これまでは「ミスはないもの」「ミスは許されない」「ミスは隠す」「ミスは検出しない」という腐った方向に進んできてた。 > 稼働前のテストでは、1号機と2号機相互の死活監視を途絶えさせても、自動切り替えできていたという。
これがたぶんウソだろう >>932
パラメーターの設計ミスにより切り離されなかった
または永続化していなかった まぁお前ら他人事だから好き勝手に弁慶してるんだろうが、我が身に降りかかったら右往左往すらできないだろうな、きっと。
無論、オレもそうだが。 >>935
担当・関係者には、ご愁傷さまとしか言いようがない。 どうせ原発も、こんな杜撰なシステムで管理されてるんだろうなwww >>930
最後の最後の最後のフェールセーフティが機能したとは言える。
ただシステム全停止が結果の時点で事実上敗北。
当該プロジェクトの総責任者、
システム構築パートの責任者は
更迭確定。
まあ、それをするために高い報酬をもらっているんだが。 ハッカー「ほーん。良いこと聞いたが。」
クラッカー「くけけけけけ」 >>937
JPXも富士通も人生狂った人がいるな。 >>931
今回は死活監視で落ちたことを検出できない状態だったからな >>935
こんなのに冷静に対処できる奴は普通じゃない
ただ単純な設定値のミスで大損害になるような仕事もしないなぁ
多分、そこに時間や金をかけさせてくれない風潮があるんだろうな >>948
そこ考え出すと、チョイ前に騒がれた9月の契約切り問題等に行きつくんじゃないやろか?
機械は成すべきことをやるだけだし、人件費削るだけ削ってハードには金かけてるだろうからさ
つまるところ、雇用問題とか見たくないから見ないようにしている部分が根本原因だよな システム開発を富士通に発注するなんてwwww
御社の危機管理は0点ですね。 システムの不具合で原発が爆発してもこの言い訳なら許してあげるw >>953
でも、どこのSIerも結局下請けに投げるだけなんだよね >>948
単純な設定値のミスは普通は起こらない
何故なら変更案件は何度もレビューを受ける
巨大システムではCCBというものがあり絶対ミスが起こらないよう厳重なレビューを受けるし、
それに普通設定ファイルの類はバージョン管理システムで管理されてて誤って余計な箇所を
変更してしまってもすぐ分かるようになってる
なのに何故このようなポカミスが起こってしまうのか?
プロジェクト管理上もかなりの問題が潜んでると思われる >>957
金融庁と官邸が調査に乗り出してるから、下請けの作業員が間違えましたじゃすまされないだろうね これが世界に誇る made in Japanだ。まいったかw もう富士通のスマホに因んでArrowsheadに改名しろよ 地方銀行
勘定系 こけたら対外系でホットスタンバイ
残りは情報系 DIMMが死に損ないでフェイルオーバしなかったわけだから
ECCエラーの発生頻度の感度閾値を変えて少しのエラーでも障害認定するようにしたんだろ。
だとすれば隠しパラメータだろ。 メンテ業者の課長級が吊られて仕舞いかな?
富士通とかいう図体デカいだけのゴミの集積体がデカい顔出来る戦後日本の科学分野の終わり具合よ 富士通の今のメインバンクはみずほ銀行?
昔は第一勧業銀行のカードを強制的に作らされた過去 >>962
まあ今度は切り替わりやすくなってそれはそれで別の問題が出てくるんだろうけどな
あと悉皆点検というか、同じようにCPUの予期せぬエラーとかを拾えるようになったかと拾えないんだろうから設定し直しが必要になる 富士通のSEにクラスタ構築させたら
常用系と待機系があって、待機系から常用系に同期させて
常用系の設定がところどころ吹っ飛んだ状態で納品してきたの思い出した 途中保守業者がパーツ交換した際に設定値OFFにしたのかもね
とにかくテスト後に触った奴の誰かが犯人 >>966
富士通の技術力の無さって業界では常識なのか? >>227
名もしれぬ弱小IT企業のドン底インフラエンジニアの際にすればよい >>962
違うやろ。>>1の記事は、メモリが死んだにも関わらず、その辺の監視を「しない」の設定にしてたから切り替わらなかったというのが原因。
つまり人災 >>971
監視しない設定にしてたのか
この程度の障害はまだまだ様子見するっていう閾値の問題なのか
自動フェイルオーバーする設定をオフにしてたのか
そのへんはわからんですわ >>320
富士通経由の派遣で来た中小ITの激安エンジニアがIBM経由でまた来るだけだぞ😳
日本には手を動かすより口を動かすだけの人が多すぎ >>968
それやな。で、更に言えば、きちんと手順書がありながら、馴れてきたからその手順通りにやらずにやってしまい、
稼働後に担当者が「あっ」って気付いた。でも今更言うと首になるから次にメンテが入るときにシレっと設定戻せば良いわと
思ってたらその次のメンテが入る前にメモリがぶっ壊れて今回の事故になった。
会計が会社の金を持ち出してFXやって損を膨らませていくパターンと同じ。 >>957
CCBない会社多いよな
最初にいた会社でCCBのレビュワーやってたから
これが当たり前だと思ってたw >>423
システムリカバリーテストなんて本番昇格前になったら出来ないからね😫
日回しテストでジョブが動いてるのを確認するだけ >>457
気にすんな😋三流専門卒の俺でも富士通やIBMの名前借りて客先に出てたさ >>511
どこかの三流IT会社の下っ端がクビを切られておしまいでしょ🥰 >自動切り替えできない設定値になっていたという。
じゃーしょうがないね!
あっはっは
死ねばいいのに 犯人というか犯会社がどこになるのか、関係した会社はヒヤヒヤだろうな >>529
日本人はリアルでそれを言う人が多いよな😫
あってはならぬものは、あってはならぬのだ😇よって対策など不要。 >>977
そのために本番同等環境を作るんだぞ
当たり前だが全く同じものを使って作るんだ やっぱトンキン🦠は糞やわ…
笑笑笑笑🤣🤣🤣🤣👏👏👏👏 >>567
ぜんぜん変わってないお😝
でも中国人は増えたな。開発は中国人がいなけりゃ回らねえ。
日本人はみんな逃げた方がいい、 調査結果が、設定がわかりにくいnetapp が悪い、だったら笑う 現実的にテスト出来ないからやらない
ってやるよなぁ
他の同様の動作でOKとしちゃうとか
ピンポイントで不具合潜んでると
こうなるな そもそも、本当に「切り替えできない設定」だったのかなあ?
そうなってた理由は?
ただ単に原因究明を求められて、アホには証明不可能かつ納得させられそうな理由を付けただけだろう
本当の理由は別にあるんでは。 金額だけで入札業者を選定したんだろうな
東証側の担当者が無能だったな可哀想に 落ちないシステムにしてください
東証
落ちないシステムの設定が出来るようにします
富士通
両者合意
で、その設定は誰が責任もってするかは決めていなかった フールプルーフとかついてないの?
人為的ミスも織り込んで絶対に停まらないシステムとか作らないと日本の株式市場任せられないだろ
原発レベルに何重も対策するとか 完成図書にどう書いてあるかは問題だな。
下っ端は意味なんて考えず、設計書に書いてある通りのせっていにする。 このスレッドは1000を超えました。
新しいスレッドを立ててください。
life time: 11時間 57分 12秒 5ちゃんねるの運営はプレミアム会員の皆さまに支えられています。
運営にご協力お願いいたします。
───────────────────
《プレミアム会員の主な特典》
★ 5ちゃんねる専用ブラウザからの広告除去
★ 5ちゃんねるの過去ログを取得
★ 書き込み規制の緩和
───────────────────
会員登録には個人情報は一切必要ありません。
月300円から匿名でご購入いただけます。
▼ プレミアム会員登録はこちら ▼
https://premium.5ch.net/
▼ 浪人ログインはこちら ▼
https://login.5ch.net/login.php レス数が1000を超えています。これ以上書き込みはできません。