SREを通じたデータドリブンな運用の世界
今回は「SREを通じたデータドリブンな運用の世界」についてご紹介します。
関連ワード (ようこそSREの世界、特集・解説等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
前回の記事では、各組織の体制や文化が異なる中で、どのような目的、意図をもって進めていけば、Site Reliability Engineering(SRE)の導入につなげられるかのプラクティスについてお話しました。
今回は、SREにおけるデータを測定する重要さ、データの種類と収集方法、システムの運用での活用について紹介します。
まず、SREとDevOpsがどのように関係しているかを踏まえてお話します。表1は、Googleが提唱する「class SRE Implements DevOps」です。DevOpsは思想、SREは具体案と捉える考え方です。その中に、「Measure everything(全てを測定する)」という思想があります。「SRE サイト リライアビリティ エンジニアリング」からも引用しますが、DevOpsの一面として、「Measurement Is Crucial(測定は重要である)」と述べられています。
その目的は、サイロやシステム障害(インシデント)、ビジネス全般における課題解決です。SREは、「オペレーションはソフトウェアの問題である」と捉え、これらの課題を解決するためにはどのように、どのようなデータを測定し、分析していくかを規定していきます。