KDDIの大規模障害、発端はコアルーターの経路設定ミス
今回は「KDDIの大規模障害、発端はコアルーターの経路設定ミス」についてご紹介します。
関連ワード (経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
KDDIは7月29日、同月2~4日に発生した通信障害の原因や再発防止策、顧客への補償などについて明らかにした。通信障害はコアルーターの経路設定ミスが発端となったことが分かった。
通信障害では、同社の通信ネットワークが輻輳(ふくそう)状態に陥り、7月2日午前1時35分から4日午後3時までの61時間25分に渡って、全国で音声通話とデータ通信が利用しづらくなる状況が発生した。影響を受けたユーザーは、KDDIが3043万人以上、グループ企業の沖縄セルラー電話が48万人以上としている。法人顧客にも多業種で深刻な影響が発生した。
同社が29日に公開した資料によると、ネットワークの輻輳は7月2日未明に実施したコアルーターのメンテナンス作業時に経路設定を誤ったことが原因で起きた。障害発生直後の記者会見では、コアルーターの故障を原因と説明した。
この誤設定によって片方向の信号だけが通過する特殊なネットワーク状態になったといい、この際に約15分間の音声通信の途絶が発生。途絶中に端末から同社の通信設備に対して、位置情報の登録を要求する通信が大量に送られていた。すぐに通信の途絶を復旧させるために切り戻し作業を行ったが、位置情報の登録を要求する通信がネットワーク内部で繰り返し再送されて通信量が急増し、VoLTE交換機が輻輳状態に陥った。
さらに、VoLTE交換機と連動している端末の位置情報を記録・管理する加入者データベース(DB)でも輻輳が発生。VoLTE交換機と加入者DBの間で、位置情報を一致させて登録することができず負荷が高まった。このため同社は、VoLTE交換機から加入者DBへの通信流量を制御したり、問題のある処理プロセスをリセットしたりしたが解消せず、最終的に全国に18台あるVoLTE交換機のうち6台を切り離し、通信流量を減少させることで輻輳状態を徐々に解消させていった。
原因について、まずきっかけとなったコアルーターの経路設定のミスは、管理ルールや確認項目、承認方法などの事前の作業準備が不十分だったと説明。経路設定のミスから輻輳状態に至ったことについては、片方向の信号だけが通過する特殊なネットワーク状態での輻輳の制御が考慮されていなかったとした。また障害が61時間以上も続いたことには、複雑な輻輳状態を解消する手順が確立されていなかったとしている。
再発防止策について、メンテナンス作業では、7月14日に作業手順書の管理ルールと作業承認手法の見直し、7月22日に作業リスクの評価と作業抑制基準・期間の見直しを実施したとのこと。輻輳の大規模化に対しては、VoLTE交換機で詳細な輻輳を検知するツールを7月28日に開発。8月末までに輻輳制御の設計を点検を完了させ、それ以降に見直し計画を策定するという。
輻輳の長期化に対しては、7月11日に輻輳発生時における復旧手順を見直したといい、8月末までにVoLTE交換機の輻輳を解消させるツールを開発する予定。また、9月までに顧客視点の情報提供の改善を図るとしている。
顧客の補償は、同社が約款で定める「通信障害期間中24時間以上連続して全ての通信サービスを利用不可またはそれと同程度の状態」に該当する271万人について、契約料金プランの基本使用料などの2日分相当額を請求時に実質的に割り引く。
また、障害発生時にスマートフォン、携帯電話、「ホームプラス電話」を契約していた3589万人には、料金請求時に税抜き200円を実質的に割り引く。基本使用料0円の「povo2.0」の契約者については、3日間当たり1GB容量の通信を実質無料にする。8月中旬までに補償対象者を確定した上で、ショートメッセージサービス(SMS)で案内するという。
なおKDDIは、契約者へ案内するSMSにURLや契約者情報の入力を求める内容を記載しないとしている。もしURLや契約者情報の入力を求める内容が記載されたSMSを受信した場合、KDDIになりすましたサイバー攻撃者や犯罪者・グループらが送信している恐れがあり、URLをクリックしたり、誘導先サイトなどで情報を入力したりしてはいけない。