Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに

今回は「Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに」についてご紹介します。

関連ワード (完了、手段、障害等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


CDNプロバイダーのCloudflareは、日本時間の昨日(2022年6月21日)午後に発生したネットワーク障害についての報告を公開しました。

障害は日本時間の午後3時半頃に顕在化し、国内ではDiscordやPixiv、Nortionなどさまざまなサービスにおいて影響が報告されましたが、午後5時から6時頃にはおおむね復旧が見られたようです。

Cloudflareの報告によると障害はBGPの設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。

Today, June 21, 2022, Cloudflare suffered an outage that affected traffic in 19 of our data centers. This was caused by a change that was part of a long-running project to increase resilience in our busiest locations. Here's what happened: https://t.co/Hb7lRJ2ND6

— Cloudflare (@Cloudflare) June 21, 2022

報告書から概要を紹介しましょう。

BGPの設定ミスが19データセンターを切り離し

同社は過去1年半をかけて、東京データセンターを含むトラフィックの多い19のデータセンターに対して同社内でMulti-Colo PoP(MCP)と呼ばれる、接続のメッシュを作成するルーティングの追加レイヤーを用いてより復元力のある新しいアーキテクチャを展開してきました。

このメッシュを使用するとデータセンターの内部ネットワークの一部を簡単に無効化あるいは有効化でき、それによりメンテナンスやトラブルへの対処を行うことができるようになったとのことでした。

しかし今回の障害は、この新しいアーキテクチャのネットワークに対して、データセンター間のルーティングを設定するBGP設定にミスがあったことが原因だと報告されています。その部分を報告書から引用しましょう。

While deploying a change to our prefix advertisement policies, a re-ordering of terms caused us to withdraw a critical subset of prefixes.

BGPのプレフィックスについて広報(アドバタイズメント)ポリシーの変更をデプロイしたときに、ターム(terms)の順序を変更したことによりクリティカルなプレフィックスのサブセットが削除(withdraw)された。

このプレフィクスの削除が、新たなアーキテクチャに対して致命的な障害を発生することになったとしています。

ただし最初にこのBGP設定が行われた日本時間12時56分の時点では、古いアーキテクチャ上にある場所へのデプロイだったため、すぐに障害が起きたわけではありませんでした。

以下、時系列で説明します。

午後3時27分、設定がMCP対応の場所に到達し、MCPに対して設定が反映されると、プレフィックスが削除された影響で19カ所のデータセンターがオフラインになり、障害が発生。

午後3時32分、障害を検知し、Cloudflare社内部でインシデントが宣言される。

午後3時51分、原因を確認するため、ルータ設定の変更を試行。

午後3時58分、原因を確認。設定を元に戻す作業を開始。

午後4時42分、設定を元に戻す作業が完了。作業に時間がかかってしまった要因として、あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため。

午後6時、インシデント終了。

この作業は、障害によって通常のネットワークでは影響を受けたデータセンターに到達できなくなったため、障害対応のために用意されたバックアップ手段によって行われたとのことです。

どのような設定ミスが、どのように障害を引き起こしたか、詳細については原文に詳しく報告されているので、興味のある方はぜひ原文の報告書をご参照ください。

テストやロールバックの自動化改善などに取り組むと

本来は障害に強いはずのMCPで障害が起きたという今回の障害を受けて、同社はMCPにおける固有のテストとデプロイの手順を見直すこと、アーキテクチャの見直し、ロールバックの自動化の改善などに取り組むとして、次のように報告書を結んでいます。

We are deeply sorry for the disruption to our customers and to all the users who were unable to access Internet properties during the outage. We have already started working on the changes outlined above and will continue our diligence to ensure this cannot happen again.

お客様、および停止中にインターネットの資源にアクセスできなかったすべてのユーザーにご迷惑をおかけしましたことを深くお詫び申し上げます。私たちはすでに上記の変更に取り組み始めており、これが二度と起こらないように努力を続けます。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
米スーパーKrogerが初の大規模ロボット化フルフィルメントセンターをオハイオに開設
ロボティクス
2021-04-17 21:00
[速報]マイクロソフト、無料でRPA機能「Power Automate Desktop」をWindows 10ユーザーに提供開始。Microsoft Ignite 2021
Microsoft
2021-03-03 18:08
ITエンジニアが投票した「ITエンジニア本大賞2022」ベスト10発表。「シェル・ワンライナー160本ノック」「モノリスからマイクロサービスへ」「恐れのない組織」など
働き方 / 給与 / 学び
2022-01-20 10:23
CDNのFastly、世界的な障害の原因は「ソフトウェアのバグ」
IT関連
2021-06-10 07:41
ITでがん治療を支援するフランスの意欲的なスタートアップ「Resilience」
ヘルステック
2021-03-18 06:03
携帯電話の格安プラン、一番お得なのはどこ? 「ahamo」がリード 楽天は2台目以降の選択肢
IT関連
2021-03-10 04:40
高価な新型Macでもアップルの株価を救えなかった
IT関連
2022-03-10 04:16
Ciscoが買収した認証サービスDuoがパスワードレスに
セキュリティ
2021-04-01 10:57
スマホでQRコードを読み取り注文できる「完全非接触自販機」が登場、キャッシュレス決済も対応
IoT
2021-02-26 22:16
ソフトバンク、“オンライン専用”スマホ新プラン先行申込スタート 月20GB・2980円
製品動向
2021-01-28 14:09
「CEATEC 2021」はリアル・オンラインの両方で開催 現実の会場は幕張メッセ
企業・業界動向
2021-03-19 03:43
近畿大学、クラウド請求書受領サービス「Bill One」を導入–職員の負担軽減
IT関連
2022-05-24 13:34
急速に進む日本でのAI活用、米国に追いつき新たなフェーズに–PwC Japan調査
IT関連
2022-05-21 13:44
パイプドビッツ、ローコード開発プラットフォームの新バージョンをリリース
IT関連
2022-05-27 01:38