50自治体のシステム障害、ストレージメーカー(EMCジャパン)がコメント「ファームウエアを修正。現在は日本電子計算で業務復旧作業中」
■ このスレッドは過去ログ倉庫に格納されています
全国50の自治体で2019年12月4日に発生したシステム障害。不具合を引き起こした日本電子計算のIaaS「Jip-Base」で使っていたストレージ装置のメーカーであるEMCジャパン(米デルテクノロジーズの日本法人)は2019年12月10日、日経 xTECHにコメントを出した。
EMCジャパンは、12月4日に同社ストレージ装置に故障が発生したことを認めたうえで、「障害発生後から日本電子計算と復旧対応を行ってきた。ファームウエアを修正するなどして12月6日午後10時15分にストレージの修復作業は完了し、日本電子計算へ納品した。現在は日本電子計算で業務復旧作業中であり、当社も復旧へ向け全力で協力している」と述べた。
これに対して日本電子計算は12月10日、「12月6日にストレージ装置のファームウエアの修正は完了したが、いまだに読み書きできないデータがあるのも事実で、復旧に至っていない。その原因箇所がストレージ装置を含めシステムのどこなのか、さらにその内容も調査中で、現状は特定できていない」とコメントした。
2019/12/10 19:40
https://tech.nikkeibp.co.jp/atcl/nxt/news/18/06671/ >>124
各自治体に鯖を提供してるNTTクラウドに引っ付けてるストレージで障害が起きたから全体に波及した >>125
それはなんだか恥ずかしいね・・・
おなじようなのがいろいろ道づれとか、一週間も復旧しないとか。
障害検知した時点ですぐ止めて一時間前くらいのロールバックに切り替えるとかできないもんだったのかねえ(当方大規模システムには素人なので検討違いだったらゴメン)
AWSの営業が捗りそう。 自治体ごとに復旧方針がバラバラで暗礁に乗り上げてんじゃね 例えばwebコンテンツと納税管理データなんて復旧方針が全く異なるであろう物がごっちゃに入ってるわけでしょ?
そりゃ難航するわw >>126
AWSだろうがAzureだろうがGCPだろうがストレージ障害で吹っ飛んだデータの復旧保証はないよ
我々は壊れにくい高信頼なストレージサービスを提供します
でも万が一に備えてデータを復旧できるようにしておくのは
クラウド利用者側の責任です
というのが彼らのスタンス >>131
AWSのEBS障害の例
https://forums.aws.amaz○n.com/message.jspa?messageID=531947
URLそのままだと5chに貼れなかったので一部伏せ字 afr0.1-0.5って数字がでてるけど、件ののシステムはどんなもんだったんだろうな? 結局
DELLのハード(それのソフトウェア)が
やっちまったと
逆HP(DECにタンデム)みたいな >>135
マイナンバー信者「漏れて困る奴は、
朝鮮人か犯罪者だけ!!」 しばらく復旧できそうにないから、別システムで構築しなおすみたいだね
(バックアップがあるなら)そっちの方が早そうではある
2-3日で復旧できなかったら、さっさとあきらめてプランBにすればよかったのに
-----
「別クラウドで再構築」、10日目突入の50自治体システム障害に進展
https://tech.nikkeibp.co.jp/atcl/nxt/news/18/06701/ >>137
思わぬおおごとになったな…
中のSEは真っ青だろう 「クラウド上では本番機とバックアップ機など2重化の構成にしていた」(東浦町)という複数の自治体の証言からすると、
なぜ日本電子計算のクラウド内部で冗長化機能が働かなかったかに注目が集まる。しかし同社は、自治体にも対外的
にも詳細な説明を行っていない。ある自治体担当者によると、「障害の発生箇所であるストレージ装置も冗長化していたが、
冗長化の機能がうまく動かなかったとの説明しか日本電子計算から受けていない」という。
コスト削減やろw こういうの、現場のSEはどういうもんなの?
・今月残業代てんこ盛り確定でラッキー。障害がいつ復旧しようとしったことかよ。
・休みがつぶれて怒り心頭。いつ復旧するか目処がたたないから正月帰省の予約もできねえじゃん。
どっち? ストレージの機能を使って冗長化していたとしたら
ストレージ装置のファームの不具合でぶっ壊れたデータを待機系にも書き込んでいた可能性がある >>141
サーバ屋のエンジニアは1番目
客側のエンジニアは2番目
って感じだな。 >>140
同じ業者にバックアップ系を置いてたって馬鹿丸出しだなw
そつなく予め用意してたバックアップサーバに切り替えた自治体もあるみたいだから、いまだに障害から復帰出来てない自治体はポンコツ。 いくら二重化をしても偶発故障ではない製品不良による障害は防げない可能性が高い。
同じメーカの部品が使われていたら、その部品が同じようなタイミングで壊れる欠陥
を持って居たら、二重化しても同時に壊れてどうにもならない。
たとえば、N回書き込んだら動作しなくなるとか、M時間後に動作不良になるなど。
回数や時間などが原因の場合は、部品の経年変化などとは違い、ほぼ同時に動作不良
になるから、二重化していてもどうにもならない。
なるべくそういうリスクを避けたければ、わざと違うメーカーで異なる製造部品
を使うとか、ある程度時間をかけてエージングをしたものとあまり時間をかけて
エージングしていないものとを組み合わせるなどがいいだろう。
HDDなら、シーゲート製品とウェスタンデジタルの製品を組み合わせてRAIDあるいは
バックアップ装置にするなど。SSDなら東芝とサムスンを組み合わせてRAIDにする
など。同じ会社の部品を使う場合も、型番を違うものにするなど。 >>143
客側のエンジニアなんているの?
自分たちで開発できないから外注してるわけでしょ?
エンジニアったって、外注先に注文クレームつけるときに、他部署の連中と差別化のために
ちょいちょいIT系の専門用語混ぜながらクレーム言ってるだけの存在でしょ。「発注側のシステム担当社員」なんて。
「どーして動かないんだよー。ウィルス?PCに風邪薬かければいいんじゃねえーの?」とか吠える役員ジジイの横で、
「サーバーの○○系統でしょうか?復旧の見込みはいつ立ちますか?フォールトトレランスはどうなって云々」
みたいな、意味があるんだかないんだか自分でも分からんハッタリ言ってるだけでカッコがつくだけの。 >>146
普通にいるよ。
クラウドっても要はレンタルサーバなんだから。 ストレージはバックアップじゃねーって言ってんのに、d2dで別ストレージにコピーしてるからテープローダーは要らないですってほざく客先SEが多い。データは自分ところで持ってなきゃだめだろ! >>137
うおっ…完全復旧じゃなかったのか
>>141
3だな上から早くやれと指示されるも、恐らくマニュアル作って無いところをあれこれ試験しながら小さいトラブル起こしつつ進んで胃が痛くなり睡眠不足でダウンするまさにデスマーチ
俺はしーらね出来るのは派遣じゃねぇかな データセンター間でのレプリケーションはコスト削減のためにしていなかったとかか? 有料オプションだったんじゃね?
データ部分のバックアップも客の注文次第 NTTをぶっ壊す!NTTから国民を守る党が出現するのも時間の問題。
電話加入権詐欺とか総無能と結託してやりたい放題、NHKより酷いだろ? AWSもEBSボリュームのデータは消える事があるので
バックアップやデータセンター間のレプリケーションは自分で設定しろって感じみたい
同一データセンター内の複製は自動でされるが、それで完全にデータ消失を防げる訳ではない
客がバックアップもレプリケーションもやってなくて
消えても客に賠償とかはしない
しかし、今年夏のAWSの障害は過熱が原因だから
一時的にサービスが使えなくなってもデータは消えてないよね? SSDが壊れた場合のデーター復旧はかなり困難。
HDDが壊れた場合もデーターの復旧には多大な手間と時間が掛かり、コストが高い。 >>146
客側のエンジニアって要はベンダーやコンサルで運用管理や企画を受託してる奴ら
稀に元エンジニアが客側に入ることもあるけど >>100
業者任せにしなかったら、さらに被害拡大。こんなアホが議員やってるのか。 >>158
そもそもこういうときの担当業者もきまってない可能性が・・・ 初めからamazon AWSとかMS Azureとかで構築しておけば10日も止まるとかもなかっただろうに
こういうトラブルがあったときに弱小企業だといろいろ限界があるんだろうな >>161
LGWANに直接接続するプライベートクラウドのリージョンなので大規模システムの場合縮退運用まで考えておかないとこうなるって話 >>100
複数データセンターで運用するために
もっと予算をよこせと言うべき >>46
N社の仕事はおとろしゅうて半年前に逃げてきたわ
関わるのは初めてじゃないけど、なんで段々指揮系が劣化してんだよ・・・ >>163
どうせ富士ゼロックスシステムサービスに投げてんだろうからバックアップから他拠点での縮退運用まで料金払っとけって話だよな >>7
hpで問題起こしてたSSDはサムスンだったな >>164
電電公社だぞ?元役所だぞ。あんなの上層部の年金のために働かされるネズミ講だろ。 >>167
いや結構昔から関わってんだけど、年々酷く成ってんだよ・・・大所帯だから人はおるように見えて
内政出来る奴はどこいったん?
さすがにそっちだから電柱とか帯域の話に詳しい奴はおるけどネットワークとかサーバの担当の奴が…
工事出来る奴と指示されただけのコード修正だけできる下流のプログラマだけ居るけど
そんなんで運用とか今回のようなインシデントの対応はできないよな?
内製してますといいながらよくわからん害虫に丸投げしてそれきりだったり
その設計運用を把握してる奴すらも基幹の内部から消えかけてるんだから、そりゃ不具合対処の一時は悪も遅くて
指示も出せんだろ
ソフトウェアさえ動けばどうにかなるっていう素人が増えすぎてんだよ・・・ >>174
まぁシステム構築してるやつのほとんどがそんな考えだからなぁ
上から下まで糞しかいねえのですよと愚痴を言ってみる ■ このスレッドは過去ログ倉庫に格納されています