「AIOps」とは? IT運用における人工知能の重要性–後編
今回は「「AIOps」とは? IT運用における人工知能の重要性–後編」についてご紹介します。
関連ワード (運用管理等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
前回の記事では、組織がAIOpsを導入する必要がある背景やAIOpsの定義について説明しました。今回は、AIOpsの導入に必要な5つのステップと、AIOpsを導入するメリットについて説明します。
AIOpsの主な用途としては、パフォーマンス監視、異常検知、根本原因分析、ITサービス管理、自動化などが挙げられます。AIOpsには、図2に示すような複数の段階があります。
各段階には、生データの収集から変換や分析を経て、問題を修正するためのアクションの実行に至るまで、明確な目的があります。定量的な観点としてAIOpsは、IT環境における問題の検出、調査、解決にかかる時間の短縮を目指します。
AIOpsの最初の段階は、サーバー、ネットワーク、アプリケーションなど、さまざまなソースシステムからデータセットを収集することです。問題の検出と解決にかかる時間を最小限に抑えるには、できるだけリアルタイムにデータを取得することが重要です。この要件は、ストリーミングインジェストをサポートすることが重要であることを意味します。
また、履歴データを残すことも重要です。履歴データは、AIOpsの機械学習モデルを改良し、キャパシティープランニングやセキュリティ侵害の調査など、他のタスクをサポートするために活用できます。
データを取り込む上でもう一つ重要な側面は、集約したデータの正規化または標準化です。ソースシステムによっては、同じ種類のデータに対して微妙に異なるデータ構造を使用している場合があり、データを共通の構造にマッピングして、後の段階で行う高度な分析をサポートすることが重要です。
AIOpsの第2段階は、データの統合です。これは、異なるソースからのデータを関連付けることで、各ソースシステムから得られる多様な情報に基づいて、根本原因の分析を実現するということを意味します。
例えば、あるアプリケーションでは、アプリケーションのパフォーマンスと負荷に関する一連のメトリクスと、アプリケーション処理における重要なイベントを記述したログメッセージが生成される場合があります。メトリクスとログを時系列で共通のダッシュボードにそろえることで、イベントと依存関係の相関関係のパターンを見つけやすくなり、アプリケーションパフォーマンス監視(APM)の洞察をより良く伝えることができます。
イベントの相関は、システムの状態を把握するために有効なイベントを特定するプロセスです。相関の目的は、膨大な数の注目すべきイベントの流れの中から、興味深いイベントの「点」を関連付けることです。例えば、あるネットワークデバイスがトラフィックの増加を示すメトリクスを報告し、その後にロードバランサーが同様の増加を報告したとします。
次に、ロードバランサーのクラスター内のサーバーからCPUとメモリーの使用率が異常に高いという報告があったとします。通常ロードバランサーは、CPU使用率が定義されたしきい値を超えると、クラスターに仮想マシン(VM)を追加することになっています。しかし、そうならない場合は、リソース不足を解消するために早急な対策が必要です。
ロードバランサーがクラスターのVM数を増やすことに失敗するのは、イベントの相関関係によって問題を検出できる例であり、相関関係にあるデータに対して、パターンマッチングやその他のAI技術を適用した例でもあります。人間がパターンを定義することもできますが、機械学習のアルゴリズムは、大量のITデータから関心のあるパターンを特定する異常検出やその他の予測分析に長けています。こうした技術によってAIOpsシステムが学習し、検出できる問題の範囲を拡大することができます。
AIOpsパイプラインの最終段階は、検出された問題を修正することです。ロードバランサーに障害が発生した例では、クラスターにリソースを追加することができます。もし、この事象が進行中のセキュリティ侵害に関連している場合、AIOpsシステムはネットワークポートをブロックし、セッションを終了させ、攻撃者が悪用するシステムの既知の脆弱性にパッチを充てるなどの措置を講じることができます。