Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応

今回は「Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応」についてご紹介します。

関連ワード (全部、強化、復旧等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Cloudflareは10月30日、同社がキーバリューストアとして提供しているWorkers KVの社内アップデート作業に失敗したことで、Workers KVのみならずCloudflare Pages、Cloudflare Access、Cloudflare Workers、Waiting Room、Cloudflare Dashboardなど各種サービスが世界協定時2023年10月30日19時54分(日本時間10月31日4時54分)頃から約37分間、サービスの一部または全部の機能が使えないなどの障害を起こしました。

幸いにも比較的短時間で復旧した障害でしたが、同社の報告によると、復旧のための社内ツールそのものがWorkers KVに依存していたために使えず、緊急対応として手動操作で復旧作業を行ったと説明されています。

この障害がどのような原因で発生し、どう復旧させたのか、同社のブログ「Cloudflare incident on October 30, 2023」から見ていきます。

Multiple Cloudflare services were unavailable for 37 minutes on October 30, 2023. Here is a discussion of what went wrong, how the incident was resolved, and the work we are undertaking to ensure it does not happen again. https://t.co/JbEJgWiHHc

— Cloudflare (@Cloudflare) November 1, 2023

ステージング環境を参照したまま本番環境へ昇格させてしまう

CloudflareはキーバリューストアのWorkers KVをマネージドサービスとして提供しています。

Workers KVチームは、新しくビルドしたWorkers KVを本番環境へデプロイする作業を始めました。

Workers KVの新バージョンはステージング環境へデプロイされ、テストされました。その後、本番環境へと徐々にデプロイされていくことになります。

ところが、ステージング環境から本番環境へと昇格させるスクリプトにバグがありました。

本番環境へ昇格させた際に、本番環境上でも現バージョンのWorkers KVを参照し、その後に新Workers KVへ切り替えていくはずの動作が、本番環境へ昇格させた後もステージング環境にある現バージョンのWorkers KVを参照してしまったのです。

fig

ステージング環境上のWorkers KVは本番環境のリソースにはアクセスできないため、Workers KVに依存している本番環境上のアプリケーションはWorkers KVを利用できずエラーとなります。

この本番環境への昇格は徐々に行われたため、本番環境上でエラーを吐くアプリケーションが徐々に増加していきました。

ロールバックのためのツールがWorkers KVに依存して使えず

この障害は自動アラートにより検知されます。そこでロールバックにより元の状態に戻そうとするのですが、そのためのツールそのものがWorkers KVに依存し、使えない状態になっていることが判明します。

下記は「Cloudflare incident on October 30, 2023」からの引用です。

Although automated alerting detected the issue immediately, there was a delay between the time we realized we were having an issue and the time we were actually able to perform the roll back. This was caused by the fact that multiple tools within Cloudflare rely on Workers KV including Cloudflare Access. Access uses Workers KV as part of the verification process for user JWTs (JSON Web Tokens).

自動アラートにより障害はすぐに検出されましたが、障害発生から実際にロールバックの実行までには遅れが生じました。これは、Cloudflare Accessを含むCloudflare内の複数のツールがWorkers KVに依存していることが原因でした。Cloudflare AccessはユーザーJWT(JSON Web Tokens)の検証プロセスの一部としてWorkers KVを使用していたのです。

変更作業のためのダッシュボードやCI環境によるロールバック時の認証システムなどもWorkers KVに依存して使えなくなっていました。

結局、復旧作業は緊急対応のため手作業で行われ、元の状態に戻すことに成功したのです。

Cloudflareは今回のインシデントを教訓とし、Workers KVのデプロイプロセスの改善やロールバックプロセスにおいて認証システムがダウンしたとしても対応できるようにすること、デプロイの事前確認の強化、デプロイツールにおけるマルチテナント対応への改善などの対応を進めていくとしています。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ステルス化するサイバー攻撃、防御側で大切なことは「越境学習」と専門家
IT関連
2025-01-21 03:57
米上院、半導体の国内生産促進に約5.7兆円を投じる法案を可決
IT関連
2021-06-10 21:16
日本の製造業を支えるインドの技術力–HCLジャパンの「骨太」エンジニア集団に迫る
IT関連
2025-04-19 08:52
第37回:ひとり情シス企業をなくすには39万人が必要に
IT関連
2022-08-10 23:53
トヨタ、ボッシュ、ダイムラーが中国の無人運転の未来に賭けてMomentaの550億円のラウンドに参加
モビリティ
2021-05-11 06:51
グーグル、「Chromebook Plus」デバイスを発表–アプリとAI機能搭載で性能強化
IT関連
2023-10-04 01:42
アップルが発表した「M3」チップはインテルへの挑戦状、その戦略的意義は
IT関連
2023-11-09 08:52
GIGAスクール特需に対応–ITリテラシーの底上げ策としての期待
IT関連
2021-07-13 06:18
【コラム】世界中のエコシステムでエグジットの効果を最大化するためにVCが行うべき4つのこと
VC / エンジェル
2021-07-30 00:24
「偏光」でデジタルセンシングをアップグレードするMetalenzのPolarEyes技術
IT関連
2022-01-31 09:42
マルチクラウド導入を推進した自動プロビジョニングツールの現状
IT関連
2022-04-09 10:19
Clubhouse、米大手VC主導のシリーズCラウンド増資 クリエイター支援とスケーリングにフォーカス
企業・業界動向
2021-04-20 03:58
Classiとトモノカイ、高校で必修化「探究」の指導と評価をオンラインツールで支援
IT関連
2022-09-01 20:01
ジョニ・ミッチェルもニール・ヤングに続き、新型コロナワクチン誤報問題でSpotifyから楽曲を削除
IT関連
2022-01-31 13:27