Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス

今回は「Google Cloud、顧客のシステムを間違って全削除した大規模障害の原因を報告。プライベートクラウドの期間を1年と設定ミス」についてご紹介します。

関連ワード (上記、発生、結果等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


Google Cloudは、同クラウドユーザーであるオーストラリアの年金基金「UniSuper」で発生した大規模障害の原因について報告する記事「Sharing details on a recent incident impacting one of our customers」を公開しました。

fig

今月(2024年5月)初旬、Google Cloud上で稼働していた数百の仮想マシン、データベース、アプリケーションを含むUniSuperのプライベートクラウドが突如として原因不明のまま削除され、復旧されるまでの数日にわたってシステムが利用できなくなるという大規模障害が発生しました。

今回の報告では、実際になぜこのような大規模障害が発生したのか、その原因と復旧の経緯について明らかにされています。その概要を紹介しましょう。

Google Cloud VMware Engineの設定を間違う

UniSuperのシステムは、Google Cloud上のマネージドなVMware環境であるGoogle Cloud VMware Engine(GCVE)上のプライベートクラウドとして構築されていました。

そして今回の障害の直接の原因は、このプライベートクラウドがGoogle Cloud側の設定ミスによって丸ごと削除されてしまったことです。

具体的には、Googleのオペレータによってプライベートクラウドのプロビジョニングの有効期間が間違って1年と設定されてしまいました。その結果、先日その1年後がやってきて、何の事前通知もなくプライベートクラウドが削除されてしまったのです。

この設定ミスが起きた背景について、次のように報告されています。

In early 2023, Google operators used an internal tool to deploy one of the customer’s GCVE Private Clouds to meet specific capacity placement needs.

2023年初頭、Googleのオペレータは内部ツールを利用し、お客様のGoogle Cloud VMware Engineプライベートクラウドが指定されたキャパシティ配置の要求に対応しました。

つまりUniSuperが指定したGoogle Cloud VMware Engineプライベートクラウドのキャパシティ設定の裏側で、Googleオペレーターがツールをマニュアルで操作し対応したわけです。ここでミスが発生しました。

Google operators followed internal control protocols. However, one input parameter was left blank when using an internal tool to provision the customer’s Private Cloud. As a result of the blank parameter, the system assigned a then unknown default fixed 1 year term value for this parameter.

Googleのオペレータは内部管理手順に従って操作しました。しかし、お客様のプライベートクラウドをプロビジョニングをするための内部ツールを使用する際、入力パラメータの1つが空白のままでした。その結果、システムはこのパラメーターにデフォルトとして1年間固定という期間の値を割り当てたのです。

このようにGoogleは今回の障害について、自社のミスが原因であると全面的に認めています。そして現在は自動化が進んで、このツールは既に使われておらず、このようなミスが今後起きることはないとしています。

ちなみに、今回の障害で顧客のアカウントが削除されたとの報道が一部でありましたが、少なくとも今回の報告の中でアカウントが削除されたという説明はなく、プライベートクラウドのサブスクリプション期間が終了し、それによって自動的に削除が行われたと説明されています。

地理的に離れて二重化されたシステムが両方とも削除される

顧客であるUniSuperは、障害に備えて2つの地域に分散したシステムの二重化を行っていました。年金システムという重要なシステムでは当然の対応と言えるでしょう。

しかし、上記のプライベートクラウドの自動削除機能は、この二重化されたシステムを両方とも削除してしまったと、Google CloudとUniSuperの当初の共同声明で明らかになっています。

UniSuper had duplication in two geographies as a protection against outages and loss. However, when the deletion of UniSuper’s Private Cloud subscription occurred, it caused deletion across both of these geographies.

障害や紛失に対する保護として、UniSuperは2つの地域に渡ってシステムを二重化していました。しかしプライベートクラウドの削除は、これらの両方の地域にわたって行われたのです。

これにより復旧作業は長期化し、両社は24時間体制での復旧体制を組みます。

結局、データのバックアップは同リージョン内のGoogle Cloud Storageに残っており、それが復旧の助けになったとのことです。

Data backups that were stored in Google Cloud Storage in the same region were not impacted by the deletion, and, along with third party backup software, were instrumental in aiding the rapid restoration.

同じリージョンのGoogle Cloud Storageに保存されていたデータのバックアップはサードパーティのバックアップソフトウェアとともに削除の影響を受けておらず、迅速な復元に役立ちました。

原因の内部ツールを廃止に、レビューもやり直す

Google Cloudは今回の障害の原因となった内部ツールを廃止してワークフローを自動化。さらに既存のGoogle Cloud VMware Engineの設定などをすべてレビューしなおして問題がないかを確認するなど、今後二度とこうしたことが起きない体制を作ったとしました。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
マイクロソフト、従業員契約から競業避止条項を削除
IT関連
2022-06-11 15:03
「Linux」初心者が最初に学ぶべきコマンド5選
IT関連
2024-03-15 19:40
ZOZOテクノロジーズがゼロトラストなセキュリティ体制に移行 そのきっかけは?
くわしく
2021-01-26 08:08
静岡新聞「マスコミやめる」宣言 新聞・テレビも「一人一人と向き合う」
企業・業界動向
2021-01-13 08:32
ハイブリッドワークを求める声は強まっている–デロイト調査
IT関連
2023-09-14 15:15
Vリーグ機構、NECと共同で「競技情報のAR表示」の実証実験
IT関連
2021-04-15 16:30
Human Capital:Instacartが約2000人を解雇へ、GitHubの人事責任者が辞任
パブリック / ダイバーシティ
2021-01-26 05:05
人事ERP導入企業の約7割がコンサルティングサービスの必要性を実感–パーソルP&T調査
IT関連
2022-08-06 12:38
グーグルがトラッキングクッキー廃止を2023年後半まで延期
ネットサービス
2021-06-26 06:24
映画「シン・エヴァ」興行収入100億円突破 公開から127日で
くらテク
2021-07-14 05:29
CDNベンダーから総合インターネットプロバイダーへと転換–クラウドフレアが事業戦略
IT関連
2023-02-14 23:57
AI未経験者の2割が「AIを活用できる人材になりたい」–AI inside調査
IT関連
2022-08-04 03:05
Chromebookの2020年出荷数がコロナ禍の需要増により前年比2倍以上に
ハードウェア
2021-02-02 03:01
新型コロナワクチンの取引がダークウェブで横行? カスペルスキーが調査
社会とIT
2021-03-06 11:24