AIの利用拡大で顕在化するGPUインフラの課題
今回は「AIの利用拡大で顕在化するGPUインフラの課題」についてご紹介します。
関連ワード (ITインフラ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
AIや生成AIの世界的な利用の拡大に伴って、AIのインフラとなるGPUにまつわる課題も顕在化しつつあるという。トゥモロー・ネットで取締役副社長 最高執行責任者(COO) クラウドソリューション本部長の松浦淳氏が冷却、運用管理、ロックインの観点から解説した。
同社は、2005年に医療情報システム関連企業として設立され、2009年からSuperMicroを中心としたITインフラ製品の販売、構築、運用保守を行う。全国500棟以上のデータセンターのうち44棟への導入実績があり、2022年からAIコミュニケーションサービスの「CAT.AI」を提供するほか、米NVIDIAの「Elite Partner」も務めるなど現在では、AIの基盤からサービスまで広範に手掛ける。松浦氏は、2000年から国内外のITベンダーで、基幹ネットワーク設備の設計やシンクライアント/仮想デスクトップ基盤(VDI)、ITインフラなどの技術とビジネスに携わり、2023年3月から現職を務めている。
松浦氏は、ここ1~2年ほどでGPUを中心とするAIインフラの課題が一気に顕在化し始めたと指摘する。特に、電力消費の増大に伴うGPUサーバーなどの冷却、AIインフラを運用するエンジニア人材の不足、そしてハードウェアの調達を挙げた。
まず冷却の課題は、大規模言語モデル(LLM)などAIのさまざまなモデル開発やデータの学習でGPUの電力消費や発熱量が増大化している背景がある。データセンターなどのサーバーの冷却は、冷気を機器に当てる空冷方式が一般的だが、AIを処理するGPUでは発熱量がより大きく、冷水を用いる水冷方式が必須だとされる。
また、主な水冷方式には、機器の内部に配置する冷水の流路管やヒートシンク(コールドプレート)を通してサーバーの発熱を吸収し、サーバーラックの外側(冷却塔など)で外気と熱交換を行う「Direct to Chip Liquid Cooling」(直接液冷)と、絶縁性質を持つ特殊な冷水で満たした容器の中にサーバー機器を置いて丸ごと冷却する「Immersion Cooling」(液浸冷却)の2つがある。
松浦氏によると、現時点では直接液冷が主流で、メーカーのAI向け新製品も水冷方式が標準になりつつある。しかしながら、現在稼働中のほとんどのデータセンターは空冷方式が前提であるため、水冷方式を標準で利用できるのは今後建設されるデータセンターや、既存のデータセンターの敷地内に増設可能なコンテナー型になるという。海外では、2024年が「水冷元年」とされ、日本では2025年以降になる見込みだそうだ。
松浦氏は、水冷方式において「責任分界点」の課題が生じるとも指摘する。責任分界点は、よくクラウドでは、インフラ層の責務をプロバイダー側が負い、インフラよりも上位層についてはユーザーが負う(実際にはクラウドのサービス形態により異なる)といったケースが知られるが、ここではサーバーラックの内側と外側を境界にして、それぞれの責務を誰が負うのかという点になる。
「というのも、水冷方式は設備がラック内とデータセンターのファシリティーに一体でまたがる構造であり、保守などで責任範囲をどう切り分けるのかが難しく、インフラ会社にとって課題になる」
さらに、水冷方式では、冷却水の温度や水質の管理なども考慮しなければならないという。温度の面では、ラック外部の冷却ユニットで冷やされた冷却水の温度が規定通りにラックに到達しているかがポイントになる。水質の点でもデータセンターの設置環境などから冷却水の調達に制約があり、国や地域によっては水道水を用いるケースもあるという。
「水道水を長年使い続けることで、含まれる成分が冷却に影響を与える可能性が懸念される。また、水に含まれた気泡が温度変化することによる影響の可能性も考慮しないといけない」と松浦氏。こうしたことは、メンテナンスのコストにも影響しかねないという。
さらに、水冷方式を標準とするシステムは、冷却機構も含めてメーカーが一体的に提供することになるため、ベンダーロックにもつながるという。従来のように、ラック内の一部のモジュールが故障したらそのモジュールだけを別のモノに交換するといった対応が水冷方式のシステムでは難しく、メーカーの保証が受けられない恐れもある。