Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応

今回は「Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応」についてご紹介します。

関連ワード (全部、強化、復旧等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Cloudflareは10月30日、同社がキーバリューストアとして提供しているWorkers KVの社内アップデート作業に失敗したことで、Workers KVのみならずCloudflare Pages、Cloudflare Access、Cloudflare Workers、Waiting Room、Cloudflare Dashboardなど各種サービスが世界協定時2023年10月30日19時54分(日本時間10月31日4時54分)頃から約37分間、サービスの一部または全部の機能が使えないなどの障害を起こしました。

幸いにも比較的短時間で復旧した障害でしたが、同社の報告によると、復旧のための社内ツールそのものがWorkers KVに依存していたために使えず、緊急対応として手動操作で復旧作業を行ったと説明されています。

この障害がどのような原因で発生し、どう復旧させたのか、同社のブログ「Cloudflare incident on October 30, 2023」から見ていきます。

Multiple Cloudflare services were unavailable for 37 minutes on October 30, 2023. Here is a discussion of what went wrong, how the incident was resolved, and the work we are undertaking to ensure it does not happen again. https://t.co/JbEJgWiHHc

— Cloudflare (@Cloudflare) November 1, 2023

ステージング環境を参照したまま本番環境へ昇格させてしまう

CloudflareはキーバリューストアのWorkers KVをマネージドサービスとして提供しています。

Workers KVチームは、新しくビルドしたWorkers KVを本番環境へデプロイする作業を始めました。

Workers KVの新バージョンはステージング環境へデプロイされ、テストされました。その後、本番環境へと徐々にデプロイされていくことになります。

ところが、ステージング環境から本番環境へと昇格させるスクリプトにバグがありました。

本番環境へ昇格させた際に、本番環境上でも現バージョンのWorkers KVを参照し、その後に新Workers KVへ切り替えていくはずの動作が、本番環境へ昇格させた後もステージング環境にある現バージョンのWorkers KVを参照してしまったのです。

fig

ステージング環境上のWorkers KVは本番環境のリソースにはアクセスできないため、Workers KVに依存している本番環境上のアプリケーションはWorkers KVを利用できずエラーとなります。

この本番環境への昇格は徐々に行われたため、本番環境上でエラーを吐くアプリケーションが徐々に増加していきました。

ロールバックのためのツールがWorkers KVに依存して使えず

この障害は自動アラートにより検知されます。そこでロールバックにより元の状態に戻そうとするのですが、そのためのツールそのものがWorkers KVに依存し、使えない状態になっていることが判明します。

下記は「Cloudflare incident on October 30, 2023」からの引用です。

Although automated alerting detected the issue immediately, there was a delay between the time we realized we were having an issue and the time we were actually able to perform the roll back. This was caused by the fact that multiple tools within Cloudflare rely on Workers KV including Cloudflare Access. Access uses Workers KV as part of the verification process for user JWTs (JSON Web Tokens).

自動アラートにより障害はすぐに検出されましたが、障害発生から実際にロールバックの実行までには遅れが生じました。これは、Cloudflare Accessを含むCloudflare内の複数のツールがWorkers KVに依存していることが原因でした。Cloudflare AccessはユーザーJWT(JSON Web Tokens)の検証プロセスの一部としてWorkers KVを使用していたのです。

変更作業のためのダッシュボードやCI環境によるロールバック時の認証システムなどもWorkers KVに依存して使えなくなっていました。

結局、復旧作業は緊急対応のため手作業で行われ、元の状態に戻すことに成功したのです。

Cloudflareは今回のインシデントを教訓とし、Workers KVのデプロイプロセスの改善やロールバックプロセスにおいて認証システムがダウンしたとしても対応できるようにすること、デプロイの事前確認の強化、デプロイツールにおけるマルチテナント対応への改善などの対応を進めていくとしています。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
CRANQは外部から移入したテキストソースコードのオーサリングを楽にするビジュアルIDE
ソフトウェア
2021-08-13 08:22
職業としてのセキュリティ–セキュリティを「もうかる仕事」に変えた経産省のファインプレー
IT関連
2023-05-19 06:41
エンタープライズAIのC3.ai、データクラウドのSnowflakeと提携
IT関連
2021-06-11 01:36
「DevSecOps成熟度モデル」でDevOpsにセキュリティ管理を組み込む
IT関連
2022-04-14 02:03
日本では多くの銀行がKYCへの対応に課題–Fenergo調査
IT関連
2023-05-18 05:56
伊藤忠、ウイングアーク1stらと協業で食の商品企画/開発領域のDXを支援
IT関連
2021-07-15 08:13
コロナ禍がAIにもたらした光と闇–英オックスフォード大のオズボーン教授に聞く
IT関連
2023-02-03 04:59
「自動運転レベル3」対応レジェンド 検証走行は130万km、世界初となる実用化の舞台裏 (1/2 ページ)
くわしく
2021-03-05 03:42
[速報]マイクロソフト、ChatGPTベースの「Microsoft 365 Copilot」を発表。AIがExcelの数字を分析しグラフ化、PowerPointを自動生成、長いメールを要約など
Microsoft
2023-03-17 15:11
「Clubhouse」の音声データが中国当局に漏れる可能性が浮上、開発元はセキュリティ強化を実施
セキュリティ
2021-02-16 17:13
Googleのプライバシー保護、日本企業から歓迎と懸念の声
IT関連
2021-03-06 10:47
ロケット企業Astra初の商業軌道打ち上げに米規制当局がゴーサイン、8月末にデモミッション
IT関連
2021-08-22 12:33
大塚商会が決算発表–「大戦略II」で今後の成長を継続
IT関連
2022-02-03 13:19
ディープフェイク画像、目の光反射から検知可能?–米大学のチームが手法示す
IT関連
2021-03-15 02:01