【KDDI通信障害】原因はコアルーター交換時の不具合とアクセス集中 負荷低減のため流量制御実施でつながりにくく 本格再開は未定 ★4 [ギズモ★]
■ このスレッドは過去ログ倉庫に格納されています
https://pctr.c.yimg.jp/t/amd-img/20220703-35189873-zdnet-000-2-view.jpg
https://pbs.twimg.com/media/FWtU8zPUYAAXe93.jpg
出典:@ishiit_aroka
KDDIの大規模通信障害、影響は最大3915万回線--事象が重なり復旧に遅れ
https://headlines.yahoo.co.jp/hl?a=20220703-35189873-zdnet-sci
KDDIは7月3日午前11時から、2日未明に発生した大規模な通信障害に関する記者会見を開いた。会見した代表取締役社長の高橋誠氏は、「社会インフラを担う安定的なサービスを提供しなければならない通信事業者として深くお詫びする」と謝罪を表明した。
通信障害は7月2日午前1時35分に発生し、全国で通話ができない、SMSの送受信ができない、データ通信の速度が遅くなる、途切れるなどの状態が3日午後現在まで続いている。3日午前11時時点の同社想定による影響範囲は、最大で約3915万回線。
中略
同社は、障害発生後から対応と復旧の作業を進めており(後述)、西日本エリアでは3日午前11時頃に、東日本エリアでは午後5時半頃に復旧作業の完了を予定。ただし、本格的な再開はネットワーク試験の検証結果によるとして未定という。
■複数の事象が重なり、復旧遅れる
同社によると、今回の障害は、東京・多摩ネットワークセンターで行っていたモバイルコアネットワークのコアルーター交換に起因する。通常保守の一環として2日午前1時35分からコアルーターのリプレース作業を行ったところ、新しいコアルーターで原因不明の故障が発生、音声トラフィックの通信経路が変更されず、約15分間に渡ってVoLTE(Voice over LTE)の音声通信が断絶、VoLTE交換機からアラートが発生した。この作業は外部委託ではなくKDDIが実施していたという。
このため午前1時50分に、手順に従って古いコアルーターへの音声トラフィックの切り戻し作業を実施。午前2時に事故対策本部を立ち上げた。しかし、午前2時17分頃から切り戻しに伴うアクセス集中によって、VoLTE交換機で輻輳が発生した。同社は午前2時52分にウェブサイトで障害情報を公開した。
午前3時から午後3時22分の約12時間にわたり、VoLTE交換機の負荷を低減するため、契約者端末からの信号接続要求の流量を制限。VoLTE交換機での呼処理プロセスのリセットと流量制限、無線設備でのデータおよび音声の接続要求の流量制限も実施した。
しかし、午後3時22分から加入者データベース(DB)の処理負荷が増加したという。取締役執行役員専務 技術統括本部長の吉村和幸氏によると、通常は契約者が通話やデータ通信をしていない状況でも端末と通信設備との間で、50分に1回の頻度で通信を行い、その際に位置情報を加入者DBに登録している。加入者DBでの処理後にVoLTE交換機にも位置情報が反映され、これがそろっていることで正常な通信が行われるという。
加入者DBの負荷の高まりは、上述のVoLTE交換機の負荷を軽減する各種作業の影響で、加入者DBへの位置情報の登録処理が不安定になったことが原因という。このため同社は、西日本収容の2台のパケットデータネットワークゲートウェイ(PGW)と東日本収容の2台のPGWを切り離し、加入者DBの負荷低減策を講じた。
さらに午後5時22分には、加入者DBに登録されるデータの不一致が発生した。今度はこれを修正する必要があり、先に切り離した東西日本収容の4台のPGWについてセッションをリセットしてデータの不一致を修正。その後に、別のPGW(計13台)についても切り離しとセッションのリセットを行ったとしている。
記者会見の時点で、障害発生のきっかけと見られるコアルーターの故障原因は調査中という。輻輳の発生による通信障害についても、事前の想定を超える事象が重なったことにより、復旧作業を手順通り実施したにもかかわらず復旧が長期化していると、同社では説明している。…
全文はソース参照
【写真】最初に発生した障害の概要。コアルーターを旧製品から新製品へ交換したところ何らかの不具合が発生した(日経クロステック)
https://cdn-xtech.nikkei.com/atcl/nxt/news/18/13226/ph2.jpg
【写真】コアルーターの切り戻し後に起きた障害の概要。VoLTE交換機へのアクセスが集中し、さらに加入者データベースのデータにも不一致が発生した(日経クロステック)
https://cdn-xtech.nikkei.com/atcl/nxt/news/18/13226/ph3.jpg
※前スレ
【KDDI通信障害】原因はコアルーター交換時の不具合とアクセス集中 負荷低減のため流量制御実施でつながりにくく 本格再開は未定 ★3 [ギズモ★]
https://asahi.5ch.net/test/read.cgi/newsplus/1656848457/ 土日でよかった厨、あと一時間しかねえんだけど
どうすんのw kddiのコアルータはいろいろ高そうだな
俺のバッファローのとは性能が違うんだろうな IoT(この言葉も以前より聞かなくなったなー)をさらに進めていくと社会生活上の被害はめちゃめちゃ増大するわな。もはや電話とか画像閲覧だけじゃないから。
少なくとも別キャリアとのプラットフォーム選択が出来るようにならないと ここまで来ると
深刻なシステム障害受けてると
思うのが普通、こんなのは
日本初レベル >>204
何やったって、停電するだけで全部マヒやで。 >>203
FeliCaは外部との通信機能がなくても使える。 >>208
データセンターなら自家発で72時間は耐えられる(空調設備に食わせる部分込みで)
油槽もちゃんと持ってる
燃料の補給が出来ればかなりの長時間は行ける >>210
去年だったかドコモで通信障害あったとき駅から出れなくなったのって何が原因なんや? >>209
彡"⌒ヾ
ヽ( ^ω^)ノ 日清シスコのココナッツサブレはうまいよな
へノ ノ
ω ノ
> >加入者データベースのデータにも不一致が発生した
こりゃ直せねえわなw
4千万件もダブルチェックしながら手打ちとか笑えるで 俺と嫁の間の監視システムが停止したおかげで
数時間の自由時間を手に入れた 知ってるか?昔KDDIは通信キャリア事業やってたんだぜ?
という時代が >>220
その場合、「KDDIって何?」になってるんじゃないかね 「本格再開は未定、キリッ」
・・って、ちゃんと使えないキャリアにプラチナバンド渡しとくのはどうなのよ、マジで >>217
流石に手打ちはない。(笑)
VoLTEのシステムが回復すれば整合性が取れる筈。多分。 彡"⌒ヾ
ヽ( ^ω^)ノ 明日のサービス再開はまず無理やな
へノ ノ 今日の昼から進展していないから
ω ノ
> せいぎさんところのこうちゃくいんかな?
あそこはしょっちゅうしょうがいだしてたのに
よそのところにきびしいね それは良いんだけど、明日平日で、トヨタ車とかに影響でないの? >>176
今回のが位置情報更新の輻輳なら、毎朝の通勤ラッシュでパンクするよ。
volte絡みだと認証用ハッシュ乱数やregistされたサーバのsipURIあたり、特に輻輳でハッシュ乱数が不一致になるとsipRegisterが失敗して今回の様になるね。 金曜日の夜からスマホ車の中に置きっぱだから関係ないわ 常に問題はクリアされてきたけどな
最後はバグ臭いからなんとも
動画流すと回線容量がパンクする→光多重でなんとか
IPアドレスが枯渇する→v6やnaptでなんとか
ルーティングテーブルが溢れる→BGPでなんとか
加入者DBが膨大でリカバリ出来ない→いまここ 23:20現在 音声発信まったくつながらず
「接続しています」のまま固まってしまう。 >>228
トラフィックにもよるが、位置登録エリアはある程度の広さだろ
同時に位置登録エリアを跨ぐ端末の数なんて、全体からしたら僅か 近年の状況に鑑み通信規制の
法的必要性を説く事になるかしら? 結果論として、交換しない方が良かったんじゃないの。 なんか楽天からの乗り換えで新規が一気に増えたのも原因の一つかも、って見かけたけどそんなに増えてたかね KDDIプロパーなんて作業せずに、後ろからプレッシャーかけてるだけだろ >>233
いや、だからvolteのsip-registはupdateLocation後、ベアラ確立してからなんだけどね >>242
彡"⌒ヾ
O、( ^ω^ )O 見せたるわ ほれ
ノ, ) ノ ヽ
ん、/ つ ヽ_、_,ゝ
(_ノωヽ_) CNN BBC ABC 見てきたけどニュースになってない。
USB紛失は早かったのにー データの不一致って何と何の不一致なんだか記事から読み取れないな。
位置情報なんだろうけどDBとVoLTE交換器との不一致か、或いはそれらとスマホとの不一致か。 100パーつながらないのをつながりにくいというのはフェイクニュースというべきものではなかろうか >>247
コワ~イ話、登録にない不明な通信が入り込んで
エラーがエラーを呼んだり…幽霊探しに奔走するプログラム… KDDIくらいでかけりゃ想定外に対応できるスーパーエンジニアおるだろ
ケチらず連れてこいや 手打ちでデータベース再構築
割とマジでこれやってたりして
販売代理店の社員に動員かかったりしてな 異例の梅雨明けとか通信インフラの大規模障害とか今年は波乱の年になりそうだぬ。 CNBCもなかった。
>>248
繋がっていた工作員出てくるぞ >>244
そんなしなびたシラタキ見せられても困るんすわ 太陽フレアのせい
ロシア中国の陰謀
楽天0円ユーザーのせい
やくぎ
繋がった(他キャリアからの受信はできた) >>20
まーバージョン差異による既存通信の異常考えるよな
こんなデカいことやるのに事前切り戻し対策の準備が甘すぎる
海外製品、下請け任せの日本大手の欠陥運用の結果だわな (7月4日 00時00分現在)au携帯電話サービスがご利用しづらい状況について
(以下同文 今回の件で
スマホが通話やデータ通信をしていない状態でも
50分に1度の間隔で位置情報を送信してることを知った >>253
ないない
その下請けベンダーも既存手順利用だらけだから >>12
そういや、トヨタのディーラーでauの回線薦められたことあったな…
トヨタとauは内部もズブズブなんか? Aプランが頓挫したら、BプランCプランというように予備のバックアップが即座に穴を埋めなきゃおかしいだろ
大事なものには予備が必要と昔から言うだろ
それを顧客にさせちゃいかん >>253
スーパーマンはみんなNTTかドコモやろうなぁ… >>265
彡"⌒ヾ
ヽ( ^ω^)ノ 位置情報 OFFでもか?
へノ ノ
ω ノ
> >>231
ベンダーが解らんからバグで誤魔化してるだけよ
検証でバージョンアップ動作差異やんなかった結果やし >>267
KDDI = 第二電電(京セラ、商社系) + トヨタ系 + 国際電信電話公社
だからね。トヨタは昔、自前で自動車電話の通信網作ろうとしてたしさ。
だからディーラーでもPiPiTとかで携帯代理店やってたし。もちろん、車への組み込み(セキュリティ関連、カーナビにでる情報)でSIM入ってる
車種も多い >>269
政府ですら国民へ責任転嫁するような国だからね
そりゃ企業もお上の真似をしますわ >>272
彡"⌒ヾ
ヽ( ^ω^)ノ 今回の主な障害は音声通話部分の通信の問題だから
へノ ノ
ω ノ
> 過去の通信障害ですが、
ソフトバンクで2018年、音声通話やデータ通信が使えなくなり、約3060万回線に影響、約4時間半で復旧した。
昨年はNTTドコモの音声通話などが通じにくくなり、少なくとも延べ約1290万人に影響、約29時間で復旧した。
復旧作業に40時間近くかかった今回のKDDIの障害は、これらと比べてもはるかに規模や影響が大きい。 >>279
それ某国のグレイトウォールねじ込まれてるんじゃないの? >>276
AWSのデータセンターもたしか多摩地区に作ろうとして三井不動産系の会社がビル作ってて火災おこして入居やめたっけ。 iPhone再起動したけど電話ダメだな
なんかこっちで再設定とか必要とかあるのかね? 工事失敗で、元の機器に切り戻しをかけた結果輻輳発生って
去年のドコモの障害と同じじゃん >>283
位置情報といってもどこの基地局に接続してて何dbぐらいの電界強度のあたりにいますよーっていうデータかな >>277
んじゃ、トヨタのカーナビとか今ヤバいんかな?
まあ、日本製のカーナビはオフラインでも普通に動くだろうけど。 トヨタとかパナソニックとかauとか
最近よくやるよな 再起動するとアンテナグレーアウトして復活しなくなった
アンテナ勃てないと発信すらできない >>286
彡"⌒ヾ
ヽ( ^ω^)ノ あぁ、位置情報ってどこに居るか(基地局)って情報の事ね
へノ ノ ドコモでも同じだし
ω ノ
> >>287
いまだとさ、レクサスとかだと119番のかわりみたいなボタンあって、故障や急病でもコンシェルジュデスクにつながったりするし、
逆に盗難(振動センサとか車両が本来の駐車場所から明らかに位置がずれた)といったテレメトリデータも送信される。
こういうのもコミコミで売ってるから、その通信モジュールからのデータが受信できないと、盗まれててもわからん しかし、長すぎるよな。システム設計の問題なんだろうな。CDMA ONE 時代からの使ってる俺もさすがに不安になる 復旧した?
日中は社用携帯全く使えず、個人のワイモバイル のLINE電話でやり取りしてるんだけど
そろそろいい加減にして欲しい やくぎを生み出した事件として長く語り継がれるだろう >>293
なるほど。詳しい説明ありがとう。
今レクサスを盗むチャンスだと言うことがわかったw 彡"⌒ヾ
ヽ( ^ω^)ノ 確か端末が電波掴んで基地局が認証して通信開始だったかな?
へノ ノ
ω ノ
> ■ このスレッドは過去ログ倉庫に格納されています