クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合

今回は「クラウドストライク、大規模障害に至る経緯を報告–原因は振る舞い検知の更新に不具合」についてご紹介します。

関連ワード (セキュリティ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 CrowdStrikeは米国時間7月24日、同19日に同社製品「Falcon Platform」の不具合が原因でWindowsシステムに障害を引き起こした経緯をブログで明らかにした。

 今回は、製品内の「Rapid Response Content」と呼ぶサイバー攻撃者などの行動を高度に監視する機能の設定更新の内容に不備があったとした。障害は、同社の事前テストで不備を発見できないまま設定更新を一部の本番環境に配信した結果、「Windows」でメモリー境界外読み取りが例外として発生し、ブルースクリーン状態を誘発したという。

 同社が「事後調査の予備的な報告」として明らかにした内容によると、Falcon Platformでは、さまざまな脅威を検知するセンサーのセキュリティコンテンツ構成を更新する際に、センサーに同梱している「Sensor Content」とRapid Response Contentの2つを配信しているという。今回の障害は、Rapid Response Content側のデータの不備が原因になった。

 まずSensor Contentは、サイバー攻撃者などに対応するための幅広い機能を提供しており、AI/機械学習モデルを含む同社の脅威検出担当エンジニアがRapid Response Contentで利用するための「Template Types」を搭載しているという。

 Sensor Contentの品質検査では、同社のコードベースにマージする前後で、単体テストや統合テスト、性能テスト、負荷テストなどの各種テストを自動と手動で行っているという。リリースプロセスは、社内環境での検証後に先行提供、一般提供と段階的にリリースする。ユーザーはインストール時にポリシーで最新バージョン、1つ前のバージョン、2つ前のバージョンの3種類を任意で選択できるという。

 同社は、Sensor ContentやTemplate Typesを含むセンサーの更新をユーザー側が完全に制御できるとし、Sensor Contentは今回の障害の原因ではないと説明している。

 一方のRapid Response Contentは、センサーでの高度な行動パターンマッチングに使用し、上述のSensor Contentに含まれるTemplate Typesのインスタンスとして提供されるという。

 Rapid Response Contentの更新は、上述のセンサーのセキュリティコンテンツ構成で検証チェックを行うとのこと。また、新たにTemplate Typesをリリースする際には、リソースの使用率やシステム性能への影響、イベント量などのさまざまな負荷テストを実施しているとする。コンテンツ構成の仕組みにおいて、システムへの悪影響など問題を引き起こす可能性のあるコンテンツの例外を適切に処理するようにしているという。

 同社によれば、今回の障害が発生するまでに次の経過があったとする。

 まず2月28日に、Sensor Contentのバージョン7.11が一般提供され、ここでは、新たな攻撃手法を検出するための「InterProcessCommunication」という新しいTemplate Typesが導入されたという。この提供では、上述した各種のテストや検証が手順に従って行われたとしている。

 次に、3月5日には、さまざまなOSとワークロードで構成された同社内の環境でInterProcessCommunicationの負荷テストを行い合格したことから、使用を検証して、セキュリティコンテンツ構成の更新の一環として、InterProcessCommunicationを本番環境にリリースしたという。その後4月8~24日に、さらに3つのInterProcessCommunicationを展開し、これらは同社の期待通りに本番環境で機能したとしている。

 その上で7月19日に、さらに2つのInterProcessCommunicationを追加導入したという。同社によれば、1つは検証に合格していたものの、もう1つはコンテンツデリバリーデータにバグがあり、問題のあるデータが含まれたまま本番環境に展開されてしまったという。同社は、3月5日時点での各種テストの結果や事前のInterProcessCommunicationのリリースでの成功に基づいて、7月19日のリリースも本番環境に展開されたと説明している。

 こうした結果、問題のあるデータが含むInterProcessCommunicationのコンテンツがWindows上でメモリー境界外読み取りによる例外を発生させ、Windows側がこの例外を適切の処理することができずブルースクリーン状態が誘発されてしまったという。

 同社によると、障害が発生したシステムは、世界協定時間(UTC)の7月19日午前4時~5時27分の間にオンライン状態にあり、上記の更新を受信したSensor Contentのバージョン7.11以上のWindowsホストになる。MacとLinuxのホストには影響がなく、7月19日午前4時~5時27分の間に同社に接続しなかったWindowsのシステムにも影響はなかったとしている。

 同社は今後に根本原因分析した詳細結果を報告するとし、再発防止に向けて今回の障害の原因となったRapid Response Contentのリリースに関するテストや検証、品質保証などを強化し、本番環境に問題なく展開できるようさらに厳密な検査の仕組みを導入する作業を進めているとした。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
第18回:人材の課題を嘆く前にCIOがやるべきこと
IT関連
2022-07-15 18:08
次期Mac ProはApple Siliconではない? Mac Pro (2022) はIntel Xeon W 3300搭載か
IT関連
2021-07-28 09:08
バイデン政権のジーナ・ライモンド商務長官にはファーウェイをエンティティリストから外す理由がない
ハードウェア
2021-02-06 22:32
NECネッツエスアイ、子ども向けITイベントを京都府城陽市で開催
IT関連
2022-08-10 01:31
AIを創造的、倫理的に利用するために–人の要素が果たす重要な役割
IT関連
2022-04-27 15:20
VUCA時代にIT部門が必要とするミッション・ビジョン・バリュー策定の勘所
IT関連
2024-03-29 03:36
「SaaSの影響力拡大が脅威になるのではないか」–AWSジャパン幹部に聞いてみた
IT関連
2023-03-24 00:25
昭和女子大附属昭和小、児童の思考力など可視化へ–AIが評価の偏り補正
IT関連
2022-06-05 10:11
Rust Foundationの初代会長にAWSのRustプラットフォームチーム率いるミラー氏
IT関連
2021-04-12 18:57
エキナカの“一等地”にeスポーツ施設……なぜ? JR東に聞いた (1/2 ページ)
DX
2021-03-09 01:19
混乱な時こそ正しい行いを–日本HPが事業方針を表明
IT関連
2021-01-21 14:32
Appleの新章担当リッチオ氏、AR/VRヘッドセット開発責任者に?
イラスト・デザイン
2021-02-10 10:55
富士通、2022年度までに「FJcloud」を100%再生可能エネルギーで運用
IT関連
2021-02-17 00:12
Facebookが2020年の米大統領選挙に関する広告のターゲティングデータを研究者に公開
ネットサービス
2021-01-27 03:23