AIの利用拡大で顕在化するGPUインフラの課題

今回は「AIの利用拡大で顕在化するGPUインフラの課題」についてご紹介します。

関連ワード (ITインフラ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIや生成AIの世界的な利用の拡大に伴って、AIのインフラとなるGPUにまつわる課題も顕在化しつつあるという。トゥモロー・ネットで取締役副社長 最高執行責任者(COO) クラウドソリューション本部長の松浦淳氏が冷却、運用管理、ロックインの観点から解説した。

 同社は、2005年に医療情報システム関連企業として設立され、2009年からSuperMicroを中心としたITインフラ製品の販売、構築、運用保守を行う。全国500棟以上のデータセンターのうち44棟への導入実績があり、2022年からAIコミュニケーションサービスの「CAT.AI」を提供するほか、米NVIDIAの「Elite Partner」も務めるなど現在では、AIの基盤からサービスまで広範に手掛ける。松浦氏は、2000年から国内外のITベンダーで、基幹ネットワーク設備の設計やシンクライアント/仮想デスクトップ基盤(VDI)、ITインフラなどの技術とビジネスに携わり、2023年3月から現職を務めている。

 松浦氏は、ここ1~2年ほどでGPUを中心とするAIインフラの課題が一気に顕在化し始めたと指摘する。特に、電力消費の増大に伴うGPUサーバーなどの冷却、AIインフラを運用するエンジニア人材の不足、そしてハードウェアの調達を挙げた。

 まず冷却の課題は、大規模言語モデル(LLM)などAIのさまざまなモデル開発やデータの学習でGPUの電力消費や発熱量が増大化している背景がある。データセンターなどのサーバーの冷却は、冷気を機器に当てる空冷方式が一般的だが、AIを処理するGPUでは発熱量がより大きく、冷水を用いる水冷方式が必須だとされる。

 また、主な水冷方式には、機器の内部に配置する冷水の流路管やヒートシンク(コールドプレート)を通してサーバーの発熱を吸収し、サーバーラックの外側(冷却塔など)で外気と熱交換を行う「Direct to Chip Liquid Cooling」(直接液冷)と、絶縁性質を持つ特殊な冷水で満たした容器の中にサーバー機器を置いて丸ごと冷却する「Immersion Cooling」(液浸冷却)の2つがある。

 松浦氏によると、現時点では直接液冷が主流で、メーカーのAI向け新製品も水冷方式が標準になりつつある。しかしながら、現在稼働中のほとんどのデータセンターは空冷方式が前提であるため、水冷方式を標準で利用できるのは今後建設されるデータセンターや、既存のデータセンターの敷地内に増設可能なコンテナー型になるという。海外では、2024年が「水冷元年」とされ、日本では2025年以降になる見込みだそうだ。

 松浦氏は、水冷方式において「責任分界点」の課題が生じるとも指摘する。責任分界点は、よくクラウドでは、インフラ層の責務をプロバイダー側が負い、インフラよりも上位層についてはユーザーが負う(実際にはクラウドのサービス形態により異なる)といったケースが知られるが、ここではサーバーラックの内側と外側を境界にして、それぞれの責務を誰が負うのかという点になる。

 「というのも、水冷方式は設備がラック内とデータセンターのファシリティーに一体でまたがる構造であり、保守などで責任範囲をどう切り分けるのかが難しく、インフラ会社にとって課題になる」

 さらに、水冷方式では、冷却水の温度や水質の管理なども考慮しなければならないという。温度の面では、ラック外部の冷却ユニットで冷やされた冷却水の温度が規定通りにラックに到達しているかがポイントになる。水質の点でもデータセンターの設置環境などから冷却水の調達に制約があり、国や地域によっては水道水を用いるケースもあるという。

 「水道水を長年使い続けることで、含まれる成分が冷却に影響を与える可能性が懸念される。また、水に含まれた気泡が温度変化することによる影響の可能性も考慮しないといけない」と松浦氏。こうしたことは、メンテナンスのコストにも影響しかねないという。

 さらに、水冷方式を標準とするシステムは、冷却機構も含めてメーカーが一体的に提供することになるため、ベンダーロックにもつながるという。従来のように、ラック内の一部のモジュールが故障したらそのモジュールだけを別のモノに交換するといった対応が水冷方式のシステムでは難しく、メーカーの保証が受けられない恐れもある。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
フォーティネットが推進する「ファブリック」戦略をひも解く
IT関連
2022-06-21 19:43
シスコ「Webex」、ウェルビーイング重視へ「People Insights」強化
IT関連
2021-04-02 18:35
「LoL」などに対応、ゲーム中にAIがアドバイスしてくれるアプリをSenpAI.GGが開発
ゲーム / eSports
2021-08-10 19:30
グーグル、アジア太平洋で3つのクラウドリージョンを新設へ
IT関連
2022-08-11 15:40
東北・北海道新幹線「はやぶさ」すべての1号車が「リモートワーク推奨車両」に、平日限定
モビリティ
2021-06-09 12:26
ウクライナを標的としたワイパー型マルウェアなど急増–Trellixの脅威レポート
IT関連
2022-06-02 14:15
中国のアントグループ、作業車のリース事業にブロックチェーンを活用
IT関連
2022-12-08 20:42
人気映画やテレビ番組を活用して語学教育を行うEWAが5100万ダウンロードを達成、初の外部資金を調達
IT関連
2022-02-27 06:46
練馬区の大規模停電、復旧から1日経過も原因分からず 東電「明らかな機器の故障はない」
ネットトピック
2021-08-08 00:24
読者が安心して記事を読めるように、Publickeyでは適切な広告だけを掲載しています
編集後記
2024-06-07 08:47
再生資源の需給をつなぐプラットフォームを実証–双日らがタッグ
IT関連
2021-04-01 17:23
Zoomで顔に眉、ヒゲ、リップカラーを追加する「スタジオエフェクト(β)」が利用可能に
アプリ・Web
2021-02-10 02:31
「Windows 11」のスマートフォン連携が「iPhone」に対応
IT関連
2023-04-28 12:04
京アニ、18日に追悼動画を配信 放火事件からまもなく2年で 現地での追悼は「固くご辞退」
くらテク
2021-07-06 09:11