マイクロソフト、1月25日に発生した大規模障害の原因を説明
今回は「マイクロソフト、1月25日に発生した大規模障害の原因を説明」についてご紹介します。
関連ワード (経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
Microsoftは、米国時間1月25日に同社のWANに発生した大規模障害に関する詳細を公表した。この障害では、世界中の顧客が「Azure」や「Microsoft 365」、「Power Platform」などのサービスにアクセスできなくなった。
影響が数時間に及んだ今回の障害では、「Microsoft Teams」「Exchange Online」「Outlook」「SharePoint Online」「OneDrive for Business」「Microsoft Graph」「PowerBi」「Microsoft 365 Admin Portal」「Microsoft Intune」「Microsoft Defender for Cloud Apps」「Microsoft Defender for Identity」が影響を受けた。
Microsoftは、今回の障害が発生する前に、協定世界時間1月25日午前7時5分(日本時間午後4時5分)から予定されていたアップデートに伴い、Azureのパブリッククラウド、Microsoft 365、Power BIのAzureリソースに接続する際に遅延やタイムアウトが発生する可能性があると予告していた。ところが、欧州で仕事が始まる頃には、アップデートの影響は遅延だけでは済まなくなり、WAN全体のネットワークデバイスに影響を与え始めた。これによって、データセンターでサービス間の接続が切断されるとともに、同社の顧客がデータセンター間でデータを転送するためのプライベートネットワークである「ExpressRoute」の接続も遮断された。
Microsoftは、インシデントの予備的レビューで、25日の午前9時(同午後6時)には多くのリージョンやサービスが復旧したが、全面的に復旧したのは午後12時43分(同午後9時43分)だったと述べている。障害の影響はAzureのパブリッククラウドに依存していた「Azure Government」にも及んだという。
同社は、「Microsoftの広域ネットワーク(WAN)に加えられた変更が、インターネット上のクライアントからAzureへの接続、リージョン間の接続、ExpressRoute経由のクロスプレミス間接続に影響を与えたことが分かった」と述べている。
レポートでは、原因について「WANルーターのIPアドレスを更新するために計画された変更の一環としてルーターに与えられた特定のコマンドをきっかけとして、そのルーターがWAN内の他のすべてのルーターにメッセージを送信した。これにより、すべてのルーターで隣接テーブルと転送テーブルの再計算が発生した。この再計算が行われている間、各ルーターは通過するパケットを正しく転送できなかった。この問題を引き起こしたコマンドは、ネットワークデバイスによって動作が異なっていたのに加え、実行されるルーターを使用した当社の認証プロセスによる検証を受けていなかった」と説明している。
Microsoftは、2週間以内に最終的なインシデントレポートを発表する予定だ。