クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合

今回は「クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合」についてご紹介します。

関連ワード (セキュリティ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 CrowdStrikeは米国時間7月24日、同19日に同社製品「Falcon Platform」の不具合が原因でWindowsシステムに障害を引き起こした経緯をブログで明らかにした。

 今回は、製品内の「Rapid Response Content」と呼ぶサイバー攻撃者などの行動を高度に監視する機能の設定更新の内容に不備があったとした。障害は、同社の事前テストで不備を発見できないまま設定更新を一部の本番環境に配信した結果、「Windows」でメモリー境界外読み取りが例外として発生し、ブルースクリーン状態を誘発したという。

 同社が「事後調査の予備的な報告」として明らかにした内容によると、Falcon Platformでは、さまざまな脅威を検知するセンサーのセキュリティコンテンツ構成を更新する際に、センサーに同梱している「Sensor Content」とRapid Response Contentの2つを配信しているという。今回の障害は、Rapid Response Content側のデータの不備が原因になった。

 まずSensor Contentは、サイバー攻撃者などに対応するための幅広い機能を提供しており、AI/機械学習モデルを含む同社の脅威検出担当エンジニアがRapid Response Contentで利用するための「Template Types」を搭載しているという。

 Sensor Contentの品質検査では、同社のコードベースにマージする前後で、単体テストや統合テスト、性能テスト、負荷テストなどの各種テストを自動と手動で行っているという。リリースプロセスは、社内環境での検証後に先行提供、一般提供と段階的にリリースする。ユーザーはインストール時にポリシーで最新バージョン、1つ前のバージョン、2つ前のバージョンの3種類を任意で選択できるという。

 同社は、Sensor ContentやTemplate Typesを含むセンサーの更新をユーザー側が完全に制御できるとし、Sensor Contentは今回の障害の原因ではないと説明している。

 一方のRapid Response Contentは、センサーでの高度な行動パターンマッチングに使用し、上述のSensor Contentに含まれるTemplate Typesのインスタンスとして提供されるという。

 Rapid Response Contentの更新は、上述のセンサーのセキュリティコンテンツ構成で検証チェックを行うとのこと。また、新たにTemplate Typesをリリースする際には、リソースの使用率やシステム性能への影響、イベント量などのさまざまな負荷テストを実施しているとする。コンテンツ構成の仕組みにおいて、システムへの悪影響など問題を引き起こす可能性のあるコンテンツの例外を適切に処理するようにしているという。

 同社によれば、今回の障害が発生するまでに次の経過があったとする。

 まず2月28日に、Sensor Contentのバージョン7.11が一般提供され、ここでは、新たな攻撃手法を検出するための「InterProcessCommunication」という新しいTemplate Typesが導入されたという。この提供では、上述した各種のテストや検証が手順に従って行われたとしている。

 次に、3月5日には、さまざまなOSとワークロードで構成された同社内の環境でInterProcessCommunicationの負荷テストを行い合格したことから、使用を検証して、セキュリティコンテンツ構成の更新の一環として、InterProcessCommunicationを本番環境にリリースしたという。その後4月8~24日に、さらに3つのInterProcessCommunicationを展開し、これらは同社の期待通りに本番環境で機能したとしている。

 その上で7月19日に、さらに2つのInterProcessCommunicationを追加導入したという。同社によれば、1つは検証に合格していたものの、もう1つはコンテンツデリバリーデータにバグがあり、問題のあるデータが含まれたまま本番環境に展開されてしまったという。同社は、3月5日時点での各種テストの結果や事前のInterProcessCommunicationのリリースでの成功に基づいて、7月19日のリリースも本番環境に展開されたと説明している。

 こうした結果、問題のあるデータが含むInterProcessCommunicationのコンテンツがWindows上でメモリー境界外読み取りによる例外を発生させ、Windows側がこの例外を適切の処理することができずブルースクリーン状態が誘発されてしまったという。

 同社によると、障害が発生したシステムは、世界協定時間(UTC)の7月19日午前4時~5時27分の間にオンライン状態にあり、上記の更新を受信したSensor Contentのバージョン7.11以上のWindowsホストになる。MacとLinuxのホストには影響がなく、7月19日午前4時~5時27分の間に同社に接続しなかったWindowsのシステムにも影響はなかったとしている。

 同社は今後に根本原因分析した詳細結果を報告するとし、再発防止に向けて今回の障害の原因となったRapid Response Contentのリリースに関するテストや検証、品質保証などを強化し、本番環境に問題なく展開できるようさらに厳密な検査の仕組みを導入する作業を進めているとした。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
NTTビジネスソリューションズ、教育現場のゼロトラスト環境の構築を支援
IT関連
2024-07-18 01:44
マイクロソフト、2月7日にイベント開催へ–「ChatGPT」と「Bing」関連か
IT関連
2023-02-08 08:56
「Internet Explorer」のサポート終了迫る–マイクロソフトが準備呼びかけ
IT関連
2022-05-10 11:40
フェイスブックやグーグルはインドの新IT規則を遵守、法令順守担当者を任命
ネットサービス
2021-05-31 20:53
マイクロソフト、セキュリティ環境の検証ツールをオープンソースで公開
IT関連
2021-05-24 22:17
ウィズセキュア、新機能「Activity Monitor」を開発–ランサムウェア感染後の復元を可能に
IT関連
2023-02-25 16:47
AI OCR「ABBYY Vantage」、提供開始–用途にあわせて訓練済みの「スキル」選択
IT関連
2022-07-23 15:44
Nozomi Networks、OT/IoTセキュリティをas a Serviceモデルで提供
IT関連
2022-11-23 01:06
「Windows」「Mac」からの乗り換えを考えているなら–使いやすさを追及した「GeckoLinux」
IT関連
2024-08-17 23:08
IoT・M2M関連のアプトポッドが8億円を調達、エムスリーと遠隔医療・ヘルスケア領域の協業も
IoT
2021-03-16 06:11
Chromeブラウザでお気に入りサイトを「フォロー」する機能のテスト開始(RSSベース)
アプリ・Web
2021-05-21 23:49
「ぼくの地球を守って」「高嶺と花」全話無料公開 白泉社のまんがアプリで
くらテク
2021-06-05 01:51
DXで再注目されるチェンジマネジメントの重要性
IT関連
2021-07-14 14:11
SUBARU、クランクシャフト鍛造粗材の加工ライン投入作業を自動化
IT関連
2024-05-17 18:45