KDDIの大規模通信障害、影響は最大3915万回線–事象が重なり復旧に遅れ

今回は「KDDIの大規模通信障害、影響は最大3915万回線–事象が重なり復旧に遅れ」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 KDDIは7月3日午前11時から、2日未明に発生した大規模な通信障害に関する記者会見を開いた。会見した代表取締役社長の高橋誠氏は、「社会インフラを担う安定的なサービスを提供しなければならない通信事業者として深くお詫びする」と謝罪を表明した。

 通信障害は7月2日午前1時35分に発生し、全国で通話ができない、SMSの送受信ができない、データ通信の速度が遅くなる、途切れるなどの状態が3日午後現在まで続いている。3日午前11時時点の同社想定による影響範囲は、最大で約3915万回線。内訳はスマートフォンや携帯電話が約3580万回線、MVNO(仮想移動体通信事業者)が約140万回線、SMS認証を伴うIoTが150万回線、「ホームプラス電話」が45万回線となっている。

 特に法人顧客への影響は広範に及んでおり、物流では配達状況の把握やドライバーとの連絡などが不能になり、自動車では一部サービスが利用不可に、気象関連では定点観測データが収集できなくなった。また、金融機関では店舗外の自動現金預払機(ATM)が利用できなくなり、交通機関でも空港スタッフの無線業務連絡ができなくなるなどの事態が起きたとしている。

 同社は、障害発生後から対応と復旧の作業を進めており(後述)、西日本エリアでは3日午前11時頃に、東日本エリアでは午後5時半頃に復旧作業の完了を予定。ただし、本格的な再開はネットワーク試験の検証結果によるとして未定という。

 同社によると、今回の障害は、東京・多摩ネットワークセンターで行っていたモバイルコアネットワークのコアルーター交換に起因する。通常保守の一環として2日午前1時35分からコアルーターのリプレース作業を行ったところ、新しいコアルーターで原因不明の故障が発生、音声トラフィックの通信経路が変更されず、約15分間に渡ってVoLTE(Voice over LTE)の音声通信が断絶、VoLTE交換機からアラートが発生した。この作業は外部委託ではなくKDDIが実施していたという。

 このため午前1時50分に、手順に従って古いコアルーターへの音声トラフィックの切り戻し作業を実施。午前2時に事故対策本部を立ち上げた。しかし、午前2時17分頃から切り戻しに伴うアクセス集中によって、VoLTE交換機で輻輳が発生した。同社は午前2時52分にウェブサイトで障害情報を公開した。

 午前3時から午後3時22分の約12時間にわたり、VoLTE交換機の負荷を低減するため、契約者端末からの信号接続要求の流量を制限。VoLTE交換機での呼処理プロセスのリセットと流量制限、無線設備でのデータおよび音声の接続要求の流量制限も実施した。

 しかし、午後3時22分から加入者データベース(DB)の処理負荷が増加したという。取締役執行役員専務 技術統括本部長の吉村和幸氏によると、通常は契約者が通話やデータ通信をしていない状況でも端末と通信設備との間で、50分に1回の頻度で通信を行い、その際に位置情報を加入者DBに登録している。加入者DBでの処理後にVoLTE交換機にも位置情報が反映され、これがそろっていることで正常な通信が行われるという。

 加入者DBの負荷の高まりは、上述のVoLTE交換機の負荷を軽減する各種作業の影響で、加入者DBへの位置情報の登録処理が不安定になったことが原因という。このため同社は、西日本収容の2台のパケットデータネットワークゲートウェイ(PGW)と東日本収容の2台のPGWを切り離し、加入者DBの負荷低減策を講じた。

 さらに午後5時22分には、加入者DBに登録されるデータの不一致が発生した。今度はこれを修正する必要があり、先に切り離した東西日本収容の4台のPGWについてセッションをリセットしてデータの不一致を修正。その後に、別のPGW(計13台)についても切り離しとセッションのリセットを行ったとしている。

 記者会見の時点で、障害発生のきっかけと見られるコアルーターの故障原因は調査中という。輻輳の発生による通信障害についても、事前の想定を超える事象が重なったことにより、復旧作業を手順通り実施したにもかかわらず復旧が長期化していると、同社では説明している。

 高橋氏によると、今回の障害は同社として過去最大の規模とのこと。影響が長時間に及びながらも2日正午頃まで同社からの状況説明などが少なく、多数の契約者がauショップなどに押しかけるなどの混乱が全国的に発生した。

 会見で高橋氏は、障害発生後から状況の把握が難しく復旧の見通しが不透明だったとして、「お客さまに混乱を来たしかねず情報発信に慎重だった」と釈明。総務省から早期復旧の指示を受けたことで、その後は約1時間おきに状況を公表するなど対処を変更した。

 また、KDDI会見の直前となる3日午前10時に、金子恭之総務大臣が記者会見で今回の障害を電気通信事業法における重大事故に相当する認識を示した。会見で高橋氏は、金子大臣の会見を見ていたとし、「詳しいことは今後の調査で明らかにしていきたいが、現時点で当社としても重大事故に該当するものととらえている」などと発言した。

 携帯電話事業者における直近の大規模障害は、2021年10月にNTTドコモで発生。この時も交換中の通信設備の故障に伴う切り戻し作業がきっかけとなり、IoT機器からサーバーへの位置情報の登録通信が大量に発生して輻輳状態に陥った。その後に総務省と通信各社は、通信障害をもたらす輻輳を回避するための技術的な対策などの検証や作業手順の見直しなどが進められている。

 高橋氏は、こうした取り組みに基づいて輻輳対策を整備していたが、今回は想定と備えを超える状況が重なり、輻輳を回避できなかったとした。復旧作業はマニュアル通りに実施したとして、人為ミスの可能性には否定的な見方を示した。

 顧客への補償などについては今後の詳しい調査と影響などの特定後になるとしつつ、「個人・法人を問わず真摯(しんし)に丁寧に対応していきたい」などと述べるにとどまった。再発防止策などについては、輻輳の発生防止を目指すとしつつ、今後の詳しい調査と結果を基に検討していくと説明した。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
第18回:人材の課題を嘆く前にCIOがやるべきこと
IT関連
2022-07-15 18:08
卑弥呼の居館をARで再現 山田寺の伽藍も 奈良・桜井市が制作へ
IT関連
2021-03-06 19:49
「Cloudera Data Platform」が「Google Cloud」上で利用可能に
IT関連
2021-04-02 07:58
ルーチン業務の多くで「紙の資料を毎日使用」–アドビ調査
IT関連
2023-08-10 21:51
パナソニックとマカフィー、自動車のセキュリティ監視や対応を事業化
IT関連
2021-03-24 05:55
「クラウドサイン/SMBCクラウドサイン」に「AI契約書管理」機能–契約書情報を自動登録
IT関連
2022-07-26 21:52
NTT Com、制御システムのセキュリティリスク可視化技術を実証開始
IT関連
2021-05-25 02:52
「Windows 11 2023 Update」(23H2)リリース–Teamsがタスクバーに固定
IT関連
2023-11-02 02:06
Chatwork、予実管理を支援する「DIGGLE」を導入–全社的な予実意識の醸成を図る
IT関連
2022-08-19 16:40
きんでんと日立製作所、送電ケーブルの技能者を早期育成で協創
IT関連
2023-10-27 07:41
インド政府が自国企業の支援を狙いマッピング・地理空間データの制限を限定解除
その他
2021-02-17 05:50
ワタミ、食事宅配事業で統合コマース基盤「ecforce」を導入–サイト運営の効率化へ
IT関連
2023-10-26 00:09
信頼とテクノロジーで成長へのチャンスを共につかむ年–日本IBM・山口社長
IT関連
2024-01-05 04:24
Anthropic、「Claude」のiOSアプリと企業向け「Team」プランを発表
IT関連
2024-05-03 05:08