オブザーバビリティの活用と「SREの民主化」への挑戦–ワンキャリアに聞く
今回は「オブザーバビリティの活用と「SREの民主化」への挑戦–ワンキャリアに聞く」についてご紹介します。
関連ワード (クラウド等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
キャリア開発などの人材サービスを手掛けるワンキャリアは、サービス全体の品質を高めるべくオブザーバビリティ(可観測性)ソリューションの活用を進めている。同社のSRE(サイト信頼性エンジニアリング)チームとして活動する技術開発部 エンジニアの宮川倫瑠氏とSRE エンジニアの渡邉美希パウラ氏に取り組みを聞いた。
同社は、「人の数だけ、キャリアを作る。」をミッションに掲げ、新卒学生向けの就職活動支援サービス「ONE CAREER」、ONE CAREER上で求人やスカウトなどを行う企業向けの「ONE CAREER CLOUD」、転職者向けの「ONE CAREER PLUS」、エンジニア職に特化した「ONE CAREER for Engineer」の4つのサービスを提供している。SREチームは、これらサービスを支えるITインフラ基盤をプロダクト横断の形で担当している。
オブザーバビリティの導入は2022年になる。宮川氏によると、SREチームを組成したのは2021年。当時は複数の新サービス(ONE CAREER CLOUDやONE CAREER PLUS)を立ち上げたタイミングで、複数サービスをまたいで利用するユーザーも急増したことから、ITインフラを統合的にモニタリングすることでサービスの稼働やパフォーマンスを可視化する必要性が生じた。
また当時は、アプリケーションのパフォーマンスを適切にモニタリングできていないという課題も抱えていたという。「2021年3月に大きな障害が発生しました。新卒向けサービスのONE CAREERは、季節によってトラフィックが変動し、一般的に就職活動が解禁される3月はトラフィックが急増するタイミングでした。アプリケーションに負荷がかかったんですが、原因の特定に2~3時間を要してしまいした。このためアプリケーションパフォーマンスモニタリング(APM)を導入して障害の検知や原因の特定を迅速にしなければ、障害復旧に長い時間がかかってしまうと考えました」(宮川氏)
同社では、サービス横断型でインフラの状態を監視・可視化するオブザーバビリティの複数のソリューションを検討し、使い勝手の良さや分かりやすさ、要件に合致するライセンス体系などからDatadogを選定した。「障害復旧の観点では、メトリクスやアプリケーションのパフォーマンスなどを複合的に見た場合に、どこに問題があるのか、異常の検知でもDatadogではシームレスにあらゆるところを横断的に把握でき、体感としても瞬時で分かりやすいものでした」(宮川氏)
また、Datadogのライセンス体系は、ユーザーが利用する機能を基本としている。「ユーザー単位のライセンス体系を持つ他のソリューションでは、どうしてもユーザー当たりの監視対象を狭めなくてなりませんでした。現在SREチームは3人体制ですが、将来に人数や業務が変動しても複数のメンバーできちんとモニタリング体制を維持できる点も決め手になりました」(宮川氏)
Datadogの導入は2022年6~7月の約1カ月間で、ほとんどの実装をSREチームで行ったという。Datadogが用意するスプレッドシートを使って簡単な疑問や相談事を記入すれば、Datadogの担当者が回答して導入作業をサポートした。また、ドキュメンテーションも充実していたため、「カスタマイズ方法なども分かりやすく、基本的に私たちだけで実装することができました」(渡邉氏)