Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応

今回は「Cloudflare、Workers KVの更新に失敗し障害発生。しかも復旧用ツールがWorkers KVに依存しており使えず、手動で緊急対応」についてご紹介します。

関連ワード (全部、強化、復旧等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Cloudflareは10月30日、同社がキーバリューストアとして提供しているWorkers KVの社内アップデート作業に失敗したことで、Workers KVのみならずCloudflare Pages、Cloudflare Access、Cloudflare Workers、Waiting Room、Cloudflare Dashboardなど各種サービスが世界協定時2023年10月30日19時54分(日本時間10月31日4時54分)頃から約37分間、サービスの一部または全部の機能が使えないなどの障害を起こしました。

幸いにも比較的短時間で復旧した障害でしたが、同社の報告によると、復旧のための社内ツールそのものがWorkers KVに依存していたために使えず、緊急対応として手動操作で復旧作業を行ったと説明されています。

この障害がどのような原因で発生し、どう復旧させたのか、同社のブログ「Cloudflare incident on October 30, 2023」から見ていきます。

Multiple Cloudflare services were unavailable for 37 minutes on October 30, 2023. Here is a discussion of what went wrong, how the incident was resolved, and the work we are undertaking to ensure it does not happen again. https://t.co/JbEJgWiHHc

— Cloudflare (@Cloudflare) November 1, 2023

ステージング環境を参照したまま本番環境へ昇格させてしまう

CloudflareはキーバリューストアのWorkers KVをマネージドサービスとして提供しています。

Workers KVチームは、新しくビルドしたWorkers KVを本番環境へデプロイする作業を始めました。

Workers KVの新バージョンはステージング環境へデプロイされ、テストされました。その後、本番環境へと徐々にデプロイされていくことになります。

ところが、ステージング環境から本番環境へと昇格させるスクリプトにバグがありました。

本番環境へ昇格させた際に、本番環境上でも現バージョンのWorkers KVを参照し、その後に新Workers KVへ切り替えていくはずの動作が、本番環境へ昇格させた後もステージング環境にある現バージョンのWorkers KVを参照してしまったのです。

fig

ステージング環境上のWorkers KVは本番環境のリソースにはアクセスできないため、Workers KVに依存している本番環境上のアプリケーションはWorkers KVを利用できずエラーとなります。

この本番環境への昇格は徐々に行われたため、本番環境上でエラーを吐くアプリケーションが徐々に増加していきました。

ロールバックのためのツールがWorkers KVに依存して使えず

この障害は自動アラートにより検知されます。そこでロールバックにより元の状態に戻そうとするのですが、そのためのツールそのものがWorkers KVに依存し、使えない状態になっていることが判明します。

下記は「Cloudflare incident on October 30, 2023」からの引用です。

Although automated alerting detected the issue immediately, there was a delay between the time we realized we were having an issue and the time we were actually able to perform the roll back. This was caused by the fact that multiple tools within Cloudflare rely on Workers KV including Cloudflare Access. Access uses Workers KV as part of the verification process for user JWTs (JSON Web Tokens).

自動アラートにより障害はすぐに検出されましたが、障害発生から実際にロールバックの実行までには遅れが生じました。これは、Cloudflare Accessを含むCloudflare内の複数のツールがWorkers KVに依存していることが原因でした。Cloudflare AccessはユーザーJWT(JSON Web Tokens)の検証プロセスの一部としてWorkers KVを使用していたのです。

変更作業のためのダッシュボードやCI環境によるロールバック時の認証システムなどもWorkers KVに依存して使えなくなっていました。

結局、復旧作業は緊急対応のため手作業で行われ、元の状態に戻すことに成功したのです。

Cloudflareは今回のインシデントを教訓とし、Workers KVのデプロイプロセスの改善やロールバックプロセスにおいて認証システムがダウンしたとしても対応できるようにすること、デプロイの事前確認の強化、デプロイツールにおけるマルチテナント対応への改善などの対応を進めていくとしています。

過去のCloudflareの障害

  • パッチ盤からケーブルを引っこ抜いてしまいCloudflareに障害発生。ケーブルにラベリングされておらずどれを戻すべきかすぐに分からず
  • Cloudflareが昨日(2022年6月21日)の障害原因はBGPの設定ミスと報告。東京データセンターを含む19の主要データセンターが一時オフラインに
  • CloudflareのCDNが全面的に約30分ダウンし、世界中のWebサイトが影響を受ける。原因はソフトウェアの動作不良。ロールバックで対応

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Excel関数ベースのプログラミング言語「Microsoft Power Fx」登場 オープンソースで公開予定 :Microsoft Ignite 2021
企業・業界動向
2021-03-04 23:20
健康管理システムCarelyを運営するiCAREが19億円のシリーズE調達、健康ビッグデータを活用するプロダクト開発加速
IT関連
2022-02-08 01:12
ほくほくフィナンシャルグループ、行員4200人に「Sansan」導入–サービス品質の向上へ
IT関連
2023-08-09 11:35
高配当利回り株で資産形成:次の景気後退はいつか?どう乗り切るか?(その1)
IT関連
2021-06-30 00:35
20代と部長クラス、同期/非同期の働き方を意識的に使い分け–Dropbox Japan調査
IT関連
2022-07-12 12:49
「Linux」でグループを効率的に管理するために習得すべきコマンド5選
IT関連
2024-08-23 18:48
KADOKAWAでシステム障害、多くのサービスで停止状態続く
IT関連
2024-06-12 23:08
M1搭載の薄い「iMac」登場 Touch ID付きMagic Keyboardも
企業・業界動向
2021-04-22 18:29
銀河英雄伝説で考えるセキュリティ–急成長したセキュリティ業界の構造と類似性
IT関連
2024-07-27 19:26
三菱マテリアル、人事変革の基盤として「SAP SuccessFactors」稼働–アクセンチュアが支援
IT関連
2022-09-03 07:43
人型ロボットが作業しながら自然に会話–OpenAIと提携するFigureが動画を公開
IT関連
2024-03-16 08:56
インテル、仮想通貨マイニング向けチップを年内出荷へ
IT関連
2022-02-15 10:53
アバイア幹部が力説する、オンプレ/クラウド共存やAIによる顧客対応の変革
IT関連
2023-12-26 22:22
Amazon、「Fire TV」用3代目リモコン発売へ 4つのアプリボタン付き
製品動向
2021-03-26 09:13