KDDIの大規模通信障害、影響は最大3915万回線–事象が重なり復旧に遅れ

今回は「KDDIの大規模通信障害、影響は最大3915万回線–事象が重なり復旧に遅れ」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 KDDIは7月3日午前11時から、2日未明に発生した大規模な通信障害に関する記者会見を開いた。会見した代表取締役社長の高橋誠氏は、「社会インフラを担う安定的なサービスを提供しなければならない通信事業者として深くお詫びする」と謝罪を表明した。

 通信障害は7月2日午前1時35分に発生し、全国で通話ができない、SMSの送受信ができない、データ通信の速度が遅くなる、途切れるなどの状態が3日午後現在まで続いている。3日午前11時時点の同社想定による影響範囲は、最大で約3915万回線。内訳はスマートフォンや携帯電話が約3580万回線、MVNO(仮想移動体通信事業者)が約140万回線、SMS認証を伴うIoTが150万回線、「ホームプラス電話」が45万回線となっている。

 特に法人顧客への影響は広範に及んでおり、物流では配達状況の把握やドライバーとの連絡などが不能になり、自動車では一部サービスが利用不可に、気象関連では定点観測データが収集できなくなった。また、金融機関では店舗外の自動現金預払機(ATM)が利用できなくなり、交通機関でも空港スタッフの無線業務連絡ができなくなるなどの事態が起きたとしている。

 同社は、障害発生後から対応と復旧の作業を進めており(後述)、西日本エリアでは3日午前11時頃に、東日本エリアでは午後5時半頃に復旧作業の完了を予定。ただし、本格的な再開はネットワーク試験の検証結果によるとして未定という。

 同社によると、今回の障害は、東京・多摩ネットワークセンターで行っていたモバイルコアネットワークのコアルーター交換に起因する。通常保守の一環として2日午前1時35分からコアルーターのリプレース作業を行ったところ、新しいコアルーターで原因不明の故障が発生、音声トラフィックの通信経路が変更されず、約15分間に渡ってVoLTE(Voice over LTE)の音声通信が断絶、VoLTE交換機からアラートが発生した。この作業は外部委託ではなくKDDIが実施していたという。

 このため午前1時50分に、手順に従って古いコアルーターへの音声トラフィックの切り戻し作業を実施。午前2時に事故対策本部を立ち上げた。しかし、午前2時17分頃から切り戻しに伴うアクセス集中によって、VoLTE交換機で輻輳が発生した。同社は午前2時52分にウェブサイトで障害情報を公開した。

 午前3時から午後3時22分の約12時間にわたり、VoLTE交換機の負荷を低減するため、契約者端末からの信号接続要求の流量を制限。VoLTE交換機での呼処理プロセスのリセットと流量制限、無線設備でのデータおよび音声の接続要求の流量制限も実施した。

 しかし、午後3時22分から加入者データベース(DB)の処理負荷が増加したという。取締役執行役員専務 技術統括本部長の吉村和幸氏によると、通常は契約者が通話やデータ通信をしていない状況でも端末と通信設備との間で、50分に1回の頻度で通信を行い、その際に位置情報を加入者DBに登録している。加入者DBでの処理後にVoLTE交換機にも位置情報が反映され、これがそろっていることで正常な通信が行われるという。

 加入者DBの負荷の高まりは、上述のVoLTE交換機の負荷を軽減する各種作業の影響で、加入者DBへの位置情報の登録処理が不安定になったことが原因という。このため同社は、西日本収容の2台のパケットデータネットワークゲートウェイ(PGW)と東日本収容の2台のPGWを切り離し、加入者DBの負荷低減策を講じた。

 さらに午後5時22分には、加入者DBに登録されるデータの不一致が発生した。今度はこれを修正する必要があり、先に切り離した東西日本収容の4台のPGWについてセッションをリセットしてデータの不一致を修正。その後に、別のPGW(計13台)についても切り離しとセッションのリセットを行ったとしている。

 記者会見の時点で、障害発生のきっかけと見られるコアルーターの故障原因は調査中という。輻輳の発生による通信障害についても、事前の想定を超える事象が重なったことにより、復旧作業を手順通り実施したにもかかわらず復旧が長期化していると、同社では説明している。

 高橋氏によると、今回の障害は同社として過去最大の規模とのこと。影響が長時間に及びながらも2日正午頃まで同社からの状況説明などが少なく、多数の契約者がauショップなどに押しかけるなどの混乱が全国的に発生した。

 会見で高橋氏は、障害発生後から状況の把握が難しく復旧の見通しが不透明だったとして、「お客さまに混乱を来たしかねず情報発信に慎重だった」と釈明。総務省から早期復旧の指示を受けたことで、その後は約1時間おきに状況を公表するなど対処を変更した。

 また、KDDI会見の直前となる3日午前10時に、金子恭之総務大臣が記者会見で今回の障害を電気通信事業法における重大事故に相当する認識を示した。会見で高橋氏は、金子大臣の会見を見ていたとし、「詳しいことは今後の調査で明らかにしていきたいが、現時点で当社としても重大事故に該当するものととらえている」などと発言した。

 携帯電話事業者における直近の大規模障害は、2021年10月にNTTドコモで発生。この時も交換中の通信設備の故障に伴う切り戻し作業がきっかけとなり、IoT機器からサーバーへの位置情報の登録通信が大量に発生して輻輳状態に陥った。その後に総務省と通信各社は、通信障害をもたらす輻輳を回避するための技術的な対策などの検証や作業手順の見直しなどが進められている。

 高橋氏は、こうした取り組みに基づいて輻輳対策を整備していたが、今回は想定と備えを超える状況が重なり、輻輳を回避できなかったとした。復旧作業はマニュアル通りに実施したとして、人為ミスの可能性には否定的な見方を示した。

 顧客への補償などについては今後の詳しい調査と影響などの特定後になるとしつつ、「個人・法人を問わず真摯(しんし)に丁寧に対応していきたい」などと述べるにとどまった。再発防止策などについては、輻輳の発生防止を目指すとしつつ、今後の詳しい調査と結果を基に検討していくと説明した。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Google、Googleフォトの5月末の無制限無料終了に向けて「高画質」の呼び方を変更
アプリ・Web
2021-05-26 09:53
FIREを実現する4つの道筋、マネーのライフプランの作り方(その1)
IT関連
2021-07-07 04:50
CISO/CSO設置率は約7割、サプライチェーン攻撃経験は約4割–トレンドマイクロ調査
IT関連
2022-07-07 13:28
[速報]古いJavaや.NETのコードを最新のJavaにAIが自動変換する「Amazon Q Code Transformation」、AWSが発表。AWS re:Invent 2023
.NET
2023-11-29 14:40
インテル、第3世代「Xeon Scalable」プロセッサーを発表–46%の性能向上
IT関連
2021-04-07 03:31
ランサムウェア攻撃でデータを暗号化された組織の46%が身代金を支払い–ソフォス調査
IT関連
2022-05-21 21:00
Facebookの監督委員会がトランプ氏のアカウント停止に対するパブリックコメントを募集
ネットサービス
2021-02-02 03:53
NECネッツエスアイ、複数のロボットを一元管理する「マルチロボット管理プラットフォーム」を提供
IT関連
2023-02-18 08:59
イーロン・マスク氏のLoopのドライバーには同社の「偉大なリーダー」に関する台本が渡される
モビリティ
2021-08-06 20:10
nearMeの空港送迎相乗りシャトルバス「スマートシャトル」が関西進出、関西空港・伊丹空港と京都府13地域を結ぶ
モビリティ
2021-06-30 05:25
開発者の大量離職時代はまだ続く–過半数が1年以内の離職を検討
IT関連
2023-01-18 05:56
「テストフェーズをなくす」–テスト自動化のオーティファイが掲げる目標
IT関連
2022-12-28 20:29
米運輸省が政府GPSを置き換えられるか11社を評価、全ユースケースに対応できたのは1社だけ
セキュリティ
2021-01-18 17:31
クラウド化する世界、IT技術者に求められるスキルはどう変化しているか
IT関連
2022-05-18 20:33