Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに

今回は「Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに」についてご紹介します。

関連ワード (完了、手段、障害等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


CDNプロバイダーのCloudflareは、日本時間の昨日(2022年6月21日)午後に発生したネットワーク障害についての報告を公開しました。

障害は日本時間の午後3時半頃に顕在化し、国内ではDiscordやPixiv、Nortionなどさまざまなサービスにおいて影響が報告されましたが、午後5時から6時頃にはおおむね復旧が見られたようです。

Cloudflareの報告によると障害はBGPの設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。

Today, June 21, 2022, Cloudflare suffered an outage that affected traffic in 19 of our data centers. This was caused by a change that was part of a long-running project to increase resilience in our busiest locations. Here's what happened: https://t.co/Hb7lRJ2ND6

— Cloudflare (@Cloudflare) June 21, 2022

報告書から概要を紹介しましょう。

BGPの設定ミスが19データセンターを切り離し

同社は過去1年半をかけて、東京データセンターを含むトラフィックの多い19のデータセンターに対して同社内でMulti-Colo PoP(MCP)と呼ばれる、接続のメッシュを作成するルーティングの追加レイヤーを用いてより復元力のある新しいアーキテクチャを展開してきました。

このメッシュを使用するとデータセンターの内部ネットワークの一部を簡単に無効化あるいは有効化でき、それによりメンテナンスやトラブルへの対処を行うことができるようになったとのことでした。

しかし今回の障害は、この新しいアーキテクチャのネットワークに対して、データセンター間のルーティングを設定するBGP設定にミスがあったことが原因だと報告されています。その部分を報告書から引用しましょう。

While deploying a change to our prefix advertisement policies, a re-ordering of terms caused us to withdraw a critical subset of prefixes.

BGPのプレフィックスについて広報(アドバタイズメント)ポリシーの変更をデプロイしたときに、ターム(terms)の順序を変更したことによりクリティカルなプレフィックスのサブセットが削除(withdraw)された。

このプレフィクスの削除が、新たなアーキテクチャに対して致命的な障害を発生することになったとしています。

ただし最初にこのBGP設定が行われた日本時間12時56分の時点では、古いアーキテクチャ上にある場所へのデプロイだったため、すぐに障害が起きたわけではありませんでした。

以下、時系列で説明します。

午後3時27分、設定がMCP対応の場所に到達し、MCPに対して設定が反映されると、プレフィックスが削除された影響で19カ所のデータセンターがオフラインになり、障害が発生。

午後3時32分、障害を検知し、Cloudflare社内部でインシデントが宣言される。

午後3時51分、原因を確認するため、ルータ設定の変更を試行。

午後3時58分、原因を確認。設定を元に戻す作業を開始。

午後4時42分、設定を元に戻す作業が完了。作業に時間がかかってしまった要因として、あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため。

午後6時、インシデント終了。

この作業は、障害によって通常のネットワークでは影響を受けたデータセンターに到達できなくなったため、障害対応のために用意されたバックアップ手段によって行われたとのことです。

どのような設定ミスが、どのように障害を引き起こしたか、詳細については原文に詳しく報告されているので、興味のある方はぜひ原文の報告書をご参照ください。

テストやロールバックの自動化改善などに取り組むと

本来は障害に強いはずのMCPで障害が起きたという今回の障害を受けて、同社はMCPにおける固有のテストとデプロイの手順を見直すこと、アーキテクチャの見直し、ロールバックの自動化の改善などに取り組むとして、次のように報告書を結んでいます。

We are deeply sorry for the disruption to our customers and to all the users who were unable to access Internet properties during the outage. We have already started working on the changes outlined above and will continue our diligence to ensure this cannot happen again.

お客様、および停止中にインターネットの資源にアクセスできなかったすべてのユーザーにご迷惑をおかけしましたことを深くお詫び申し上げます。私たちはすでに上記の変更に取り組み始めており、これが二度と起こらないように努力を続けます。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
阪神タイガース、セールスフォースでEC顧客との接点を大幅改善
IT関連
2023-02-24 04:58
学習院、増え続けるデータを「Dell PowerScale」で一元管理–データ容量は40%削減
IT関連
2023-01-31 09:08
JetBrains、GitHub Copilot対抗の「JetBrains AI Assistant」提供開始。AIによるコード生成やリファクタリングなど。月額1000円から
機械学習・AI
2023-12-08 09:10
「クリエイターファンド」はそれほど褒められたものじゃない
IT関連
2022-02-01 16:43
「Windows 10」新プレビュー、「タイムライン」の同期機能を終了–AADアカウントに影響なし
IT関連
2021-04-16 05:35
生成AI、世界経済に年間620兆円の価値をもたらす可能性–マッキンゼー最新報告
IT関連
2023-07-12 14:44
日本のITサービス市場規模は6.4兆円に拡大–IDC調査
IT関連
2024-04-05 16:01
横浜市とパナソニック コネクト、自動運転向けBeyond 5Gネットワークで実証実験
IT関連
2022-12-18 13:17
契約業務・管理クラウド「Hubble」、「GPT-4」活用で契約書の管理業務を自動化
IT関連
2024-04-04 10:35
富士フイルムとIBM、世界最大記録容量のテープストレージを開発
IT関連
2023-08-31 16:17
第58回:社内のITリテラシーとひとり情シスとの関係
IT関連
2022-10-26 08:08
ピアノの演奏動画から楽譜を自動作成 ディープラーニングで 京大と理研が技術開発 :Innovative Tech
イラスト・デザイン
2021-03-18 21:05
大阪市、予算編成システムに「Now Platform」を採用–各部署の資料・メールを一元化
IT関連
2023-07-29 21:31
VRリハビリ機器を提供する「mediVR」が5億円のシリーズB調達、世界初の「成果報酬型自費リハ施設」開設を計画
ヘルステック
2021-07-10 10:38