サービスの信頼性と開発効率を両立するSRE–GoogleとJCBの取り組み

今回は「サービスの信頼性と開発効率を両立するSRE–GoogleとJCBの取り組み」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 近年は、ITサービスの運用改善の観点からGoogleが提唱する「Site Reliability Engineering」(SRE)への関心が高まりつつある。グーグル・クラウド・ジャパンが8月29日に記者説明会を開き、SREの概要とSREの実践に取り組むジェーシービー(JCB)の現状などを紹介した。

 グーグルのシニア デベロッパーリレーションズ エンジニアを務める山口能迪氏によると、SREは、現代のITの開発と運用の間に存在するギャップを埋めていくための実践的な方法論になる。

 現在のシステムやアプリケーションでは、ユーザーの利便性を高める機能の開発や改善、追加などを急ピッチで行うと同時に、それらが問題なく動作する信頼性や安定性、安全性を兼ね備えている必要がある。

 ITの運用は、原則として手順に基づくシステムの安定稼働に主眼を置き、サーバーなどのITインフラの保守や障害などのインシデントに対応する。他方でITの開発は、従来の要件定義や仕様書などに基づくウォーターフォール型から、変化などへ柔軟に対応しやすくリリースの期間も短いアジャイル型の採用が増えている。開発と運用を両輪で進めていく機会が増しており、高頻度の変更やスピードが重視される開発と、安定性や信頼性などが重視される運用との間にギャップが生じるようになったわけだ。

 開発と運用を両輪で進めることを「DevOps」とも呼ぶが、この言葉自体はその概念を表現したもので、具体的に実践していくための方法がSREになるという。SREでは、指標と実際のデータを基に、SREのチームが運用と開発をサポートし、信頼性や安定性と開発の効率性や迅速性、柔軟性などを担保していく。

 SREにおける指標は、対象とするサービスやアプリケーション、システム、ビジネス、組織などの要因からさまざまだが、山口氏は代表的なものの1つとして「エラーバジェット」を紹介した。エラーバジェットは、製品担当とSREチームが定義する可用性の目標を(理想であり非現実的な)100%の安定稼働から差し引いた「非信頼性予算」と表現され、信頼性を測定する方法になる。エラーバジェットの設定は各種要因によって異なるが、主には「SLI」(サービスレベル指標)と「SLO」(サービスレベル目標)、「SLA」(サービスレベル合意)の3つを用いる。

 SLIは、いわば「システムが安定的に稼働している」とする定義であり、例えばシステム稼働実績やエラー発生頻度(エラー率)などを考慮しながら「可用性99.99%」などとして設定する。SLOは、SLIに基づいて定義される。SLAは製品の提供側とユーザー側の間でよく用いられるが、これはビジネスも考慮した「ユーザーに許容される可用性」(言い換えれば、例えばユーザーの許容を超える障害などに返金対応を行うなどの基準)になる。

 山口氏によれば、この他にもSREの取り組みは需要予測や変動への対応、設計支援や自動化、緊急対応、Toil(労苦、価値を生まない作業の繰り返し)の削減、文化の醸成、教育・トレーニングなど多岐に渡る。

 開発も運用も本来は、システムやアプリケーションが持つ価値をユーザーへ提供することが共通の目的になるが、それぞれの性質の違いに起因するギャップが、本来の目的の達成を阻害している――SREは、それを解消していくための実践的な方法になる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
楽天と日本郵政が資本業務提携、共同物流拠点・配送システムの協議およびペイメント・物販協業など検討
ネットサービス
2021-03-13 15:18
リモートワークの普及により職場ですでに疎外されていた人たちはさらに居づらくなったというレポート
パブリック / ダイバーシティ
2021-04-05 17:28
認証済み匿名ユーザーのソーシャルネットワーク「Blind」が40.3億円を調達
ネットサービス
2021-05-12 03:40
コインチェック、デジタルアイテム「NFT」の取引所を開始 所有権をブロックチェーンで証明、海外では75億円の価値が付く例も
社会とIT
2021-03-19 19:14
「Microsoft Teams」、SAPのビジネスアプリに統合へ–2021年半ばに
IT関連
2021-01-25 12:05
従業員の死や過酷な労働時間への批判をよそに中国のeコマースPinduoduoの株価・ダウンロード数に揺るぎなし
ネットサービス
2021-01-14 08:09
IT系コミュニティを不審者からどう守るか/GitHubが無停止でMySQLをアップグレード/開発中のヨドバシAPIが目指す機能、ほか。2023年12月の人気記事
編集後記
2024-01-05 14:21
マカフィーが2021年の脅威を予測、モバイル決済やSNSの悪用も
IT関連
2021-01-27 17:04
自律型AIソフトウェアエンジニアの「Devin」、CrowdStrikeで動かなくなったPCの修復作業をAWS上で自動化できると開発元が説明
OS
2024-07-29 18:02
Rinna、AIチャットボット基盤を刷新–少量データで口調を学習
IT関連
2021-01-26 05:47
GitHub、既定のセットアップでスケジュールスされたスキャンを自動で設定
IT関連
2023-12-16 11:27
スーパーマーケットのライフと日本ユニシス、AI需要予測自動発注システムを開発
IT関連
2021-01-20 03:16
支出管理SaaS提供のリーナーテクノロジーズが見積依頼書を「5ステップ5分」で作成できる「Leaner見積」公開
ネットサービス
2021-05-14 23:34
生成AIによるプログラミング支援のCodeium、VSCodeフォークの「Windsurf」エディタ発表。変数名を1カ所変更して残りの修正を生成AIが行うなど高度な開発支援を提供へ
機械学習・AI
2024-11-15 06:55