Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス

今回は「Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス」についてご紹介します。

関連ワード (上記、発生、結果等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Google Cloudは、同クラウドユーザーであるオーストラリアの年金基金「UniSuper」で発生した大規模障害の原因について報告する記事「Sharing details on a recent incident impacting one of our customers」を公開しました。

fig

今月(2024年5月)初旬、Google Cloud上で稼働していた数百の仮想マシン、データベース、アプリケーションを含むUniSuperのプライベートクラウドが突如として原因不明のまま削除され、復旧されるまでの数日にわたってシステムが利用できなくなるという大規模障害が発生しました。

今回の報告では、実際になぜこのような大規模障害が発生したのか、その原因と復旧の経緯について明らかにされています。その概要を紹介しましょう。

Google Cloud VMware Engineの設定を間違う

UniSuperのシステムは、Google Cloud上のマネージドなVMware環境であるGoogle Cloud VMware Engine(GCVE)上のプライベートクラウドとして構築されていました。

そして今回の障害の直接の原因は、このプライベートクラウドがGoogle Cloud側の設定ミスによって丸ごと削除されてしまったことです。

具体的には、Googleのオペレータによってプライベートクラウドのプロビジョニングの有効期間が間違って1年と設定されてしまいました。その結果、先日その1年後がやってきて、何の事前通知もなくプライベートクラウドが削除されてしまったのです。

この設定ミスが起きた背景について、次のように報告されています。

In early 2023, Google operators used an internal tool to deploy one of the customer’s GCVE Private Clouds to meet specific capacity placement needs.

2023年初頭、Googleのオペレータは内部ツールを利用し、お客様のGoogle Cloud VMware Engineプライベートクラウドが指定されたキャパシティ配置の要求に対応しました。

つまりUniSuperが指定したGoogle Cloud VMware Engineプライベートクラウドのキャパシティ設定の裏側で、Googleオペレーターがツールをマニュアルで操作し対応したわけです。ここでミスが発生しました。

Google operators followed internal control protocols. However, one input parameter was left blank when using an internal tool to provision the customer’s Private Cloud. As a result of the blank parameter, the system assigned a then unknown default fixed 1 year term value for this parameter.

Googleのオペレータは内部管理手順に従って操作しました。しかし、お客様のプライベートクラウドをプロビジョニングをするための内部ツールを使用する際、入力パラメータの1つが空白のままでした。その結果、システムはこのパラメーターにデフォルトとして1年間固定という期間の値を割り当てたのです。

このようにGoogleは今回の障害について、自社のミスが原因であると全面的に認めています。そして現在は自動化が進んで、このツールは既に使われておらず、このようなミスが今後起きることはないとしています。

ちなみに、今回の障害で顧客のアカウントが削除されたとの報道が一部でありましたが、少なくとも今回の報告の中でアカウントが削除されたという説明はなく、プライベートクラウドのサブスクリプション期間が終了し、それによって自動的に削除が行われたと説明されています。

地理的に離れて二重化されたシステムが両方とも削除される

顧客であるUniSuperは、障害に備えて2つの地域に分散したシステムの二重化を行っていました。年金システムという重要なシステムでは当然の対応と言えるでしょう。

しかし、上記のプライベートクラウドの自動削除機能は、この二重化されたシステムを両方とも削除してしまったと、Google CloudとUniSuperの当初の共同声明で明らかになっています。

UniSuper had duplication in two geographies as a protection against outages and loss. However, when the deletion of UniSuper’s Private Cloud subscription occurred, it caused deletion across both of these geographies.

障害や紛失に対する保護として、UniSuperは2つの地域に渡ってシステムを二重化していました。しかしプライベートクラウドの削除は、これらの両方の地域にわたって行われたのです。

これにより復旧作業は長期化し、両社は24時間体制での復旧体制を組みます。

結局、データのバックアップは同リージョン内のGoogle Cloud Storageに残っており、それが復旧の助けになったとのことです。

Data backups that were stored in Google Cloud Storage in the same region were not impacted by the deletion, and, along with third party backup software, were instrumental in aiding the rapid restoration.

同じリージョンのGoogle Cloud Storageに保存されていたデータのバックアップはサードパーティのバックアップソフトウェアとともに削除の影響を受けておらず、迅速な復元に役立ちました。

原因の内部ツールを廃止に、レビューもやり直す

Google Cloudは今回の障害の原因となった内部ツールを廃止してワークフローを自動化。さらに既存のGoogle Cloud VMware Engineの設定などをすべてレビューしなおして問題がないかを確認するなど、今後二度とこうしたことが起きない体制を作ったとしました。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
JavaScriptランタイム「Bun」がバージョン1.0に到達へ、9月7日にローンチイベント開催
Bun
2023-08-25 11:45
サイバー攻撃者の視点を誰もが知っておくべき理由
IT関連
2021-08-23 00:18
突然クラウドを導入することに! セキュリティ対策はどうすれば? 今注目の「ゼロトラストセキュリティ」を漫画で解説
PR
2021-03-16 10:32
ヤンマーエネルギーシステム、ウェアラブル端末を活用した遠隔技術支援サービスを提供
IT関連
2021-07-01 05:43
フードデリバリーの「ゴーストレストラン」の正体 25店もの専門店が同居する店舗も
IT関連
2021-06-15 07:17
Datadogがアプリのセキュリティ管理プラットフォームのSqreenを買収
セキュリティ
2021-02-14 21:47
キノコ由来代替肉の豪スタートアップ「Fable Food」が米国へ進出
IT関連
2021-08-14 18:56
人の動きを検知するLED電球、+Styleが発売 人感センサーを一体化してコンセント不要に
くらテク
2021-02-11 07:12
「ロトの兜飾り」創業300年の老舗から
くらテク
2021-05-28 10:26
「Raspberry Pi Pico W」レビュー–Wi-Fi接続機能が搭載された小型ボード
IT関連
2022-08-04 11:51
スペースXが新たに60基のStarlink衛星を打ち上げ、1カ月あまりで計300基が地球低軌道へ
宇宙
2021-04-09 22:16
AIアシスタントで変わる開発現場、ローコード開発も容易に
IT関連
2023-12-26 03:55
サイバーセキュリティ企業SentinelOne、XDR強化へ–ログ管理のScalyr買収発表
IT関連
2021-02-11 17:54
ユーザー同士すれ違えば、お薦め本を交換する斬新アプリ
IT関連
2021-04-22 15:55