Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと
今回は「Spotifyが全世界でログインできなくなった3月8日の障害について原因を報告。Google CloudのTraffic Directorの障害がgRPCライブラリのバグを踏んだと」についてご紹介します。
関連ワード (日午前、時間以上、機能等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、Publickey様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
音楽配信サービスのSpotifyは先週、2022年3月8日の18時頃(世界協定時。日本時間9日午前3時頃)から2時間以上、ログインができなくなるなどの障害がグローバルに発生していました。20時半頃には障害が収束し、正常化しました。
Spotifyのエンジニアリングチームは、この障害の原因についての報告を、ブログの記事「Incident Report: Spotify Outage on March 8」として公開し、Google CloudのTraffic Directorの障害が引き金であったことなどを説明しています。
Google Cloud Traffic Directorの障害が引き金に
Spotifyのシステムはマイクロサービスでできており、サービス間でお互いを発見(Discovery)するために、多くはDNSベースのサービスディスカバリを利用していたものの、一部でEnvoyプロキシのxDS APIベースのGoogle Cloud Traffic Directorを採用していたとのこと。
そして3月8日にこのGoogle Cloudが提供するTraffic Directorに障害が発生。
これがgRPCを用いたクライアントライブラリのバグ、処理に失敗した際にチャネルにエラーを伝播していくというバグと組み合わさり、Spotifyのログイン処理に問題を引き起こしたと説明されました。
Spotifyのエンジニアチームはこの原因を発見し次第、障害が発生したシステムをDNSベースのサービスディスカバリへと設定変更し、正常な状態へと回復させました。
Spotifyは今後の対策として、今回の障害についてGoogle Cloudと協力して分析を行うとともに、障害発生をさらに早期に発見するための監視とアラート機能を強化するとのことです。