クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合

今回は「クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合」についてご紹介します。

関連ワード (セキュリティ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 CrowdStrikeは米国時間7月24日、同19日に同社製品「Falcon Platform」の不具合が原因でWindowsシステムに障害を引き起こした経緯をブログで明らかにした。

 今回は、製品内の「Rapid Response Content」と呼ぶサイバー攻撃者などの行動を高度に監視する機能の設定更新の内容に不備があったとした。障害は、同社の事前テストで不備を発見できないまま設定更新を一部の本番環境に配信した結果、「Windows」でメモリー境界外読み取りが例外として発生し、ブルースクリーン状態を誘発したという。

 同社が「事後調査の予備的な報告」として明らかにした内容によると、Falcon Platformでは、さまざまな脅威を検知するセンサーのセキュリティコンテンツ構成を更新する際に、センサーに同梱している「Sensor Content」とRapid Response Contentの2つを配信しているという。今回の障害は、Rapid Response Content側のデータの不備が原因になった。

 まずSensor Contentは、サイバー攻撃者などに対応するための幅広い機能を提供しており、AI/機械学習モデルを含む同社の脅威検出担当エンジニアがRapid Response Contentで利用するための「Template Types」を搭載しているという。

 Sensor Contentの品質検査では、同社のコードベースにマージする前後で、単体テストや統合テスト、性能テスト、負荷テストなどの各種テストを自動と手動で行っているという。リリースプロセスは、社内環境での検証後に先行提供、一般提供と段階的にリリースする。ユーザーはインストール時にポリシーで最新バージョン、1つ前のバージョン、2つ前のバージョンの3種類を任意で選択できるという。

 同社は、Sensor ContentやTemplate Typesを含むセンサーの更新をユーザー側が完全に制御できるとし、Sensor Contentは今回の障害の原因ではないと説明している。

 一方のRapid Response Contentは、センサーでの高度な行動パターンマッチングに使用し、上述のSensor Contentに含まれるTemplate Typesのインスタンスとして提供されるという。

 Rapid Response Contentの更新は、上述のセンサーのセキュリティコンテンツ構成で検証チェックを行うとのこと。また、新たにTemplate Typesをリリースする際には、リソースの使用率やシステム性能への影響、イベント量などのさまざまな負荷テストを実施しているとする。コンテンツ構成の仕組みにおいて、システムへの悪影響など問題を引き起こす可能性のあるコンテンツの例外を適切に処理するようにしているという。

 同社によれば、今回の障害が発生するまでに次の経過があったとする。

 まず2月28日に、Sensor Contentのバージョン7.11が一般提供され、ここでは、新たな攻撃手法を検出するための「InterProcessCommunication」という新しいTemplate Typesが導入されたという。この提供では、上述した各種のテストや検証が手順に従って行われたとしている。

 次に、3月5日には、さまざまなOSとワークロードで構成された同社内の環境でInterProcessCommunicationの負荷テストを行い合格したことから、使用を検証して、セキュリティコンテンツ構成の更新の一環として、InterProcessCommunicationを本番環境にリリースしたという。その後4月8~24日に、さらに3つのInterProcessCommunicationを展開し、これらは同社の期待通りに本番環境で機能したとしている。

 その上で7月19日に、さらに2つのInterProcessCommunicationを追加導入したという。同社によれば、1つは検証に合格していたものの、もう1つはコンテンツデリバリーデータにバグがあり、問題のあるデータが含まれたまま本番環境に展開されてしまったという。同社は、3月5日時点での各種テストの結果や事前のInterProcessCommunicationのリリースでの成功に基づいて、7月19日のリリースも本番環境に展開されたと説明している。

 こうした結果、問題のあるデータが含むInterProcessCommunicationのコンテンツがWindows上でメモリー境界外読み取りによる例外を発生させ、Windows側がこの例外を適切の処理することができずブルースクリーン状態が誘発されてしまったという。

 同社によると、障害が発生したシステムは、世界協定時間(UTC)の7月19日午前4時~5時27分の間にオンライン状態にあり、上記の更新を受信したSensor Contentのバージョン7.11以上のWindowsホストになる。MacとLinuxのホストには影響がなく、7月19日午前4時~5時27分の間に同社に接続しなかったWindowsのシステムにも影響はなかったとしている。

 同社は今後に根本原因分析した詳細結果を報告するとし、再発防止に向けて今回の障害の原因となったRapid Response Contentのリリースに関するテストや検証、品質保証などを強化し、本番環境に問題なく展開できるようさらに厳密な検査の仕組みを導入する作業を進めているとした。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
保安検査を支援するAI技術を実用化へ–JAL、日立らが南紀白浜空港で実証実験
IT関連
2022-03-04 14:31
Red HatがクローンOSベンダを非難、「付加価値もなくコードをリビルドするだけなら、それはオープンソースに対する脅威だ」と
Linux
2023-06-28 18:24
米政府、中国で最先端工場の建設を10年間禁止–CHIPS法で資金受ける米企業に
IT関連
2022-09-09 04:12
オープンハウスとAlgoage、「AI営業」の開発目指す–大規模言語AIを活用した実証実験を開始
IT関連
2022-07-31 18:03
セキュリティを底上げするアタックサーフェスのリスク管理
IT関連
2023-05-11 00:17
SansanとSchoo、社会人のリスキリングを支援–定期的な学び直しの場を提供
IT関連
2022-12-07 08:23
「Microsoft Teams」が登場5周年–飛躍的な成長を遂げた共同作業ツールの今後
IT関連
2022-03-17 05:16
ハイブリッドワークを求める声は強まっている–デロイト調査
IT関連
2023-09-14 15:15
クラウドインフラのシェア、生成AIブームによりマイクロソフトが上昇率でGoogleを抜いてトップに、AWSを猛追中。2023年第3四半期。Canalysの調査
AWS
2023-12-05 05:56
WebAssemblyをコンテナイメージとし、コンテナレジストリなどで配布可能にする「Wasm OCI Artifact layout」仕様が登場
Docker
2024-09-26 19:50
千葉市動物公園、アソビューの電子チケットを導入–顧客の利便性向上へ
IT関連
2023-01-12 21:36
部屋の模様替えのデザイン検討や家具の購入もできるプラットフォーム「The Landing」
ネットサービス
2021-02-27 12:52
Clubhouse、中国で利用できなくなる 当局が規制か
IT関連
2021-02-10 00:18
Microsoft Azureの管理者は多要素認証によるサインオンが必須に。今年(2024年)7月から段階的に開始
Microsoft Azure
2024-05-29 02:15