障害発生時に担当者へのオンコールを自動化「Grafana OnCall」がオープンソースで公開
今回は「障害発生時に担当者へのオンコールを自動化「Grafana OnCall」がオープンソースで公開」についてご紹介します。
関連ワード (効率化、連絡、開始等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
クラウド対応のログ可視化ツールとして知られる「Grafana」や監視システム「Prometheus」などを開発し提供するGrafana Labsは、障害発生時に担当者へのオンコールを自動化できるオンコールマネジメントソフトウェア「Grafana OnCall」をオープンソースで公開したことを明らかにしました。
Introducing the newest member of our open source family: Grafana OnCall OSS brings on-call management to the open source community #grafanaconline #oncallmanagement https://t.co/Nkq8frQx2r
— Grafana (@grafana) June 14, 2022
Grafana OnCallは、昨年(2021年)11月に買収を発表したAmirが開発したソフトウェアで、発表と同時にGrafana Cloudのクラウドサービスとしても提供が開始されました。
今回それがオープンソースとして公開されたことになります。
各種監視ツールと連係、スケジュール設定による担当者への連絡など自動化
Grafana OnCallは、システム監視ツールから受け取ったアラートが、あらかじめ設定されたレベルを超えた場合に、自動的に運用担当者にSMSやチャットツールなどで連絡を行う、オンコールマネジメントと呼ばれる分野のソフトウェアです。
連携できるシステム監視ツールはGrafanaやPrometheusはもちろん、 Datadog、New Relic、AWS SNS、AlertManager、Zabbixなど多岐にわたり、連絡用のツールもSMSやSlackをはじめとする各種チャットツールなどに対応しています。
どのような場合にオンコールを発するかの条件は、IF文形式で設定することができます。
オンコールの連絡先は、あらかじめ設定されたその日その時間の担当者にスケジュールを基に行われるようになっています。
また、アラートの自動グルーピング機能によって、障害が継続しているあいだずっとアラートが鳴り続ける、いわゆるアラートストームを防止する機能も備えています。
これらの機能によって、別々の監視ツールからそれぞれ発せられるアラートを統合的に管理できるようになり、またあらかじめ決められたオンコール担当者に連絡を振り分ける作業も自動化されるなど、監視業務の自動化と効率化を進めることができるようになるとされています。