PagerDutyに聞く、クラウドストライク障害の影響を最小限にした舞台裏

今回は「PagerDutyに聞く、クラウドストライク障害の影響を最小限にした舞台裏」についてご紹介します。

関連ワード (CIO/経営、トップインタビュー等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 PagerDuty(ペイジャーデューティ)は、都内でプライベートカンファレンス「PagerDuty on Tour TOKYO 2024」を開催した。「AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築」というテーマを掲げた同イベントには米本社 最高経営責任者(CEO)のJennifer Tejada氏も登壇し、ユーザー事例としてJR東日本情報システム 取締役 Suica・駅サービスソリューション本部長の吉川眞之氏との対談を通じて同社のサービス概要を紹介した。

 基調講演終了後にはTejada氏とのインタビューも実現し、2024年7月19日に発生した世界規模のシステム障害で同社が行った対応についても詳しく聞くことができたので、改めて同社の事業概要やインタビューの内容について紹介したい。

 PagerDutyは「システムのインシデント対応を一元化するプラットフォームです。システム障害対応に費やす時間を軽減し、貴重なエンジニアリソースをビジネス拡大に充てることができます」と自社のプラットフォームを説明している。一見するとシステム運用監視ツールや最近注目が高まっているオブザーバビリティ製品をイメージしたが、実際にはPagerDutyはシステム運用監視ツールやオブザーバビリティ製品と組み合わせて運用する形になる。

 システムやサービスが何らかの障害を起こした場合、まずは当該システムやその周辺からエラーメッセージやアラートが発報され、これを受け取ったシステム運用監視ツールなどがユーザーに通知してインシデント対応が開始される、というのが一般的な流れだ。

 PagerDutyはエラーを検出する機能を搭載しておらず、運用監視ツールやオブザーバビリティ製品から情報を受け取って、その後のインシデント対応作業を支援する。システムのどの部分で障害が発生したのかによってその後の状況は大きく変わってくるが、一般的には障害箇所からピンポイントでエラーが出るわけではなく、周辺から一斉に大量のエラーが報告されることになる。

 例えば、あるサーバーがダウンした場合、そのサーバーと通信しているさまざまなシステムからそれぞれエラーが出てくるというイメージだ。そこで、運用担当者はまず大量のエラーメッセージを精査して根本原因を追及する必要があるが、現在の運用監視ツールやオブザーバビリティ製品では、システム側で自動的に根本原因の追及やエラーメッセージの整理を行い、担当者が対応すべき箇所をピンポイントで指摘してくれるように進化している。

 こうした製品機能の紹介を見ると、運用監視ツールやオブザーバビリティ製品があればインシデント対応の負担は大幅に軽減され、機能的には充分だろうと思ってしまうが、実際の運用管理の現場ではその後の対応作業の負荷も重く、そこでPagerDutyが活用されているのだという。

 PagerDutyの“Pager”とは、日本語で言うところの「ポケベル」のことだ。ポケベルは、スマートフォンはもちろん携帯電話もまだ普及していなかった時代に活用された無線デバイスで、電話の着信を通知し、簡単なテキストメッセージを表示できた。

 システムに何か障害が発生すると運用管理担当者にポケベル(Pager)を通じて連絡が入り、急いでオフィスやデータセンターに向かって対応する、という運用を長らく行っていたことを踏まえての命名だという。大規模なシステムの運用管理では特定の担当者が終始対応するわけにもいかないため、チームを組んで交代制で対応するような体制を構築することになる。

 こうした場合、技術力の水準を高レベルでそろえるのは極めて難しいため、技術力の高いスタッフを各チームに配置しつつ、多くはそこそこの人材でカバーする形にならざるを得ないだろう。そこで重要となるのが「手順書」であり、担当者は何か起こった場合は手順書の該当箇所を参照しながらその後の対応を進める。

 こうした対応だけで解決できる軽微な障害であればよいが、解決が難しい複雑なトラブルの場合は技術力の高いスタッフに連絡して対応を依頼する必要があり、そうした対応についても手順書に指定されているのが普通だ。

 担当者は障害の内容を手順書に従って確認し、技術力の高いスタッフに連絡する必要があるケースであることが分かったら指定の連絡手段を使って連絡するが、これには少なくとも10~15分程度は掛かり、複雑な問題の場合はもっと時間を要することも珍しくはないだろう。

 PagerDutyの基本的な機能は手順書の内容を踏まえた自動対応であり、対応時間が数秒~数分程度に短縮できる。同社の関係者が「いまだにPagerDutyは『電話を掛けてくれるツール』というイメージで見られている」と語っていたが、まさに必要な場合に適切な担当者へ即座に通知を送ってくれる、という部分が多くの運用管理担当者に評価された部分であり、PagerDutyの根幹部分なのだろう。

 現在ではAI機能を活用したより高度な自動化機能が豊富に提供されており、PagerDutyだけで自動対応してトラブルを解決できる領域も着実に拡大している。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ナンバープレート替えて自転車になる電動バイク、折りたたみ電動シニアカー 日本の道を行くマイクロモビリティの最新形 (1/6 ページ)
くわしく
2021-05-29 11:23
ハッカーがほぼ全モデルのiPhoneに有効な新しい脱獄ツールを公開
セキュリティ
2021-03-03 06:44
OpenAI、低コストの小型モデル「GPT-4o mini」の提供を開始
IT関連
2024-07-20 22:45
トレンドマイクロ、生成AI用セキュリティ対策機能を提供開始
IT関連
2024-08-03 04:54
国内NFT市場形成に向けdouble jump.tokyo、CryptoGames、スマートアプリが業務提携、NFT発行から販売まで支援
ブロックチェーン
2021-03-13 02:03
もう一つの「クラブハウス」ひそかに人気 カニが家でしゃべる
くらテク
2021-02-10 07:49
山善、エクスペリエンス管理ツールを採用–部門属性ごとのITニーズを把握
IT関連
2022-08-05 09:42
【レビュー】グーグルの99ドルワイヤレスイヤフォン「Pixel Buds A-Series」はコスト削減努力の結晶
ハードウェア
2021-06-06 23:05
「コンピューティングパワーは不足しつつある」–IBMの答えはAI向け新チップ「AIU」
IT関連
2022-11-09 13:52
2021年に「Skype飲み」してみた “Zoom飲み”よりいい感じ?
最近の注目ニュース
2021-04-30 04:40
富士通が仮想化5G基地局を開発、世界で展開
IT関連
2022-02-26 03:05
店舗オペレーション管理ツール「V-Manage」が多言語対応–日々のタスクを自動翻訳
IT関連
2023-11-15 18:34
アバターが新たな雇用を創出する日–パソナ、JR西日本も活用
IT関連
2022-04-22 20:23
製造業の米国回帰に応える溶接ロボットのPath Roboticsが約61億円を調達
ロボティクス
2021-05-06 12:57