Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに

今回は「Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに」についてご紹介します。

関連ワード (完了、手段、障害等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


CDNプロバイダーのCloudflareは、日本時間の昨日(2022年6月21日)午後に発生したネットワーク障害についての報告を公開しました。

障害は日本時間の午後3時半頃に顕在化し、国内ではDiscordやPixiv、Nortionなどさまざまなサービスにおいて影響が報告されましたが、午後5時から6時頃にはおおむね復旧が見られたようです。

Cloudflareの報告によると障害はBGPの設定ミスが原因で、これにより東京データセンターを含む同社の主要な19のデータセンターで障害が発生したとのことです。

Today, June 21, 2022, Cloudflare suffered an outage that affected traffic in 19 of our data centers. This was caused by a change that was part of a long-running project to increase resilience in our busiest locations. Here's what happened: https://t.co/Hb7lRJ2ND6

— Cloudflare (@Cloudflare) June 21, 2022

報告書から概要を紹介しましょう。

BGPの設定ミスが19データセンターを切り離し

同社は過去1年半をかけて、東京データセンターを含むトラフィックの多い19のデータセンターに対して同社内でMulti-Colo PoP(MCP)と呼ばれる、接続のメッシュを作成するルーティングの追加レイヤーを用いてより復元力のある新しいアーキテクチャを展開してきました。

このメッシュを使用するとデータセンターの内部ネットワークの一部を簡単に無効化あるいは有効化でき、それによりメンテナンスやトラブルへの対処を行うことができるようになったとのことでした。

しかし今回の障害は、この新しいアーキテクチャのネットワークに対して、データセンター間のルーティングを設定するBGP設定にミスがあったことが原因だと報告されています。その部分を報告書から引用しましょう。

While deploying a change to our prefix advertisement policies, a re-ordering of terms caused us to withdraw a critical subset of prefixes.

BGPのプレフィックスについて広報(アドバタイズメント)ポリシーの変更をデプロイしたときに、ターム(terms)の順序を変更したことによりクリティカルなプレフィックスのサブセットが削除(withdraw)された。

このプレフィクスの削除が、新たなアーキテクチャに対して致命的な障害を発生することになったとしています。

ただし最初にこのBGP設定が行われた日本時間12時56分の時点では、古いアーキテクチャ上にある場所へのデプロイだったため、すぐに障害が起きたわけではありませんでした。

以下、時系列で説明します。

午後3時27分、設定がMCP対応の場所に到達し、MCPに対して設定が反映されると、プレフィックスが削除された影響で19カ所のデータセンターがオフラインになり、障害が発生。

午後3時32分、障害を検知し、Cloudflare社内部でインシデントが宣言される。

午後3時51分、原因を確認するため、ルータ設定の変更を試行。

午後3時58分、原因を確認。設定を元に戻す作業を開始。

午後4時42分、設定を元に戻す作業が完了。作業に時間がかかってしまった要因として、あるネットワークエンジニアが元に戻した設定を、別のエンジニアが気づかずさらに元に戻す作業をして障害状態に復帰してしまう、といったことが散発したため。

午後6時、インシデント終了。

この作業は、障害によって通常のネットワークでは影響を受けたデータセンターに到達できなくなったため、障害対応のために用意されたバックアップ手段によって行われたとのことです。

どのような設定ミスが、どのように障害を引き起こしたか、詳細については原文に詳しく報告されているので、興味のある方はぜひ原文の報告書をご参照ください。

テストやロールバックの自動化改善などに取り組むと

本来は障害に強いはずのMCPで障害が起きたという今回の障害を受けて、同社はMCPにおける固有のテストとデプロイの手順を見直すこと、アーキテクチャの見直し、ロールバックの自動化の改善などに取り組むとして、次のように報告書を結んでいます。

We are deeply sorry for the disruption to our customers and to all the users who were unable to access Internet properties during the outage. We have already started working on the changes outlined above and will continue our diligence to ensure this cannot happen again.

お客様、および停止中にインターネットの資源にアクセスできなかったすべてのユーザーにご迷惑をおかけしましたことを深くお詫び申し上げます。私たちはすでに上記の変更に取り組み始めており、これが二度と起こらないように努力を続けます。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflare、ファイアウォールに追加した「正規表現のミス」が全面的なCDNダウンの原因と報告。「キルスイッチ」で解除
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ローコード/ノーコード開発導入理由のトップはスピード–IDC調査
IT関連
2021-04-13 03:02
まだ見ぬ領域への第一歩–順天堂大学と日本IBM、病院をメタバース空間に再現へ
IT関連
2022-04-15 07:27
企業がサイバー犯罪と戦うためのノーコードプラットフォームを提供するSpecTrustが約4.7億円調達
セキュリティ
2021-05-18 07:56
JWAら、最長2年先の気象を予測する新サービス–事業計画での活用促進
IT関連
2024-06-14 17:32
三菱マテリアル、人事改革に向けクラウド型人事ソリューションを導入
IT関連
2022-09-08 11:26
【コラム】フィンテック創業者の教訓、B2BでCを解決する
IT関連
2022-03-01 06:41
Googleの親会社Alphabet決算、過去最高を更新 YouTubeはNetflixに迫る
企業・業界動向
2021-07-29 21:11
防災ラジオライトを20年製造してきたメーカーが「手回し充電」を廃止 理由はスマホ
くらテク
2021-03-12 14:05
インド警察が与党政治家の投稿に「操作メディア」とラベル付けした同国のツイッター支社を訪問
ネットサービス
2021-05-26 12:34
アクセンチュア、東芝と共同で企業の「グリーントランスフォーメーション」を加速
IT関連
2022-09-30 09:39
工事不要の「ポータブルクーラー」、アイリスオーヤマが発売 排気ダクト通す窓パネル付き
くらテク
2021-04-22 20:05
近畿大、大学構内で国内初の顔認証決済サービスを実証
IT関連
2021-04-03 09:47
電子文書の利用を推進する諸制度の動きとテクノロジー–後編
IT関連
2021-01-25 14:11
アップル、Siriに「性別の区別が明確につかない声」を追加
IT関連
2022-02-27 08:58