AIの利用拡大で顕在化するGPUインフラの課題

今回は「AIの利用拡大で顕在化するGPUインフラの課題」についてご紹介します。

関連ワード (ITインフラ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIや生成AIの世界的な利用の拡大に伴って、AIのインフラとなるGPUにまつわる課題も顕在化しつつあるという。トゥモロー・ネットで取締役副社長 最高執行責任者(COO) クラウドソリューション本部長の松浦淳氏が冷却、運用管理、ロックインの観点から解説した。

 同社は、2005年に医療情報システム関連企業として設立され、2009年からSuperMicroを中心としたITインフラ製品の販売、構築、運用保守を行う。全国500棟以上のデータセンターのうち44棟への導入実績があり、2022年からAIコミュニケーションサービスの「CAT.AI」を提供するほか、米NVIDIAの「Elite Partner」も務めるなど現在では、AIの基盤からサービスまで広範に手掛ける。松浦氏は、2000年から国内外のITベンダーで、基幹ネットワーク設備の設計やシンクライアント/仮想デスクトップ基盤(VDI)、ITインフラなどの技術とビジネスに携わり、2023年3月から現職を務めている。

 松浦氏は、ここ1~2年ほどでGPUを中心とするAIインフラの課題が一気に顕在化し始めたと指摘する。特に、電力消費の増大に伴うGPUサーバーなどの冷却、AIインフラを運用するエンジニア人材の不足、そしてハードウェアの調達を挙げた。

 まず冷却の課題は、大規模言語モデル(LLM)などAIのさまざまなモデル開発やデータの学習でGPUの電力消費や発熱量が増大化している背景がある。データセンターなどのサーバーの冷却は、冷気を機器に当てる空冷方式が一般的だが、AIを処理するGPUでは発熱量がより大きく、冷水を用いる水冷方式が必須だとされる。

 また、主な水冷方式には、機器の内部に配置する冷水の流路管やヒートシンク(コールドプレート)を通してサーバーの発熱を吸収し、サーバーラックの外側(冷却塔など)で外気と熱交換を行う「Direct to Chip Liquid Cooling」(直接液冷)と、絶縁性質を持つ特殊な冷水で満たした容器の中にサーバー機器を置いて丸ごと冷却する「Immersion Cooling」(液浸冷却)の2つがある。

 松浦氏によると、現時点では直接液冷が主流で、メーカーのAI向け新製品も水冷方式が標準になりつつある。しかしながら、現在稼働中のほとんどのデータセンターは空冷方式が前提であるため、水冷方式を標準で利用できるのは今後建設されるデータセンターや、既存のデータセンターの敷地内に増設可能なコンテナー型になるという。海外では、2024年が「水冷元年」とされ、日本では2025年以降になる見込みだそうだ。

 松浦氏は、水冷方式において「責任分界点」の課題が生じるとも指摘する。責任分界点は、よくクラウドでは、インフラ層の責務をプロバイダー側が負い、インフラよりも上位層についてはユーザーが負う(実際にはクラウドのサービス形態により異なる)といったケースが知られるが、ここではサーバーラックの内側と外側を境界にして、それぞれの責務を誰が負うのかという点になる。

 「というのも、水冷方式は設備がラック内とデータセンターのファシリティーに一体でまたがる構造であり、保守などで責任範囲をどう切り分けるのかが難しく、インフラ会社にとって課題になる」

 さらに、水冷方式では、冷却水の温度や水質の管理なども考慮しなければならないという。温度の面では、ラック外部の冷却ユニットで冷やされた冷却水の温度が規定通りにラックに到達しているかがポイントになる。水質の点でもデータセンターの設置環境などから冷却水の調達に制約があり、国や地域によっては水道水を用いるケースもあるという。

 「水道水を長年使い続けることで、含まれる成分が冷却に影響を与える可能性が懸念される。また、水に含まれた気泡が温度変化することによる影響の可能性も考慮しないといけない」と松浦氏。こうしたことは、メンテナンスのコストにも影響しかねないという。

 さらに、水冷方式を標準とするシステムは、冷却機構も含めてメーカーが一体的に提供することになるため、ベンダーロックにもつながるという。従来のように、ラック内の一部のモジュールが故障したらそのモジュールだけを別のモノに交換するといった対応が水冷方式のシステムでは難しく、メーカーの保証が受けられない恐れもある。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
PayPay、加盟店向け手数料を無料から1.6%に 離脱防止に3%還元キャンペーンも
企業・業界動向
2021-08-20 22:39
中国、「Alipay」運営元に行政指導 経営体制の見直し求める
IT関連
2021-04-15 16:09
日立、DXの旗艦拠点「Lumada Innovation Hub Tokyo」を開設–元日本MS澤氏がエバンジェリスト就任
IT関連
2021-03-23 12:28
楽天が商号変更 「楽天グループ」に
企業・業界動向
2021-04-02 00:29
NECと豊田自動織機、量子コンピューティングで出荷時の荷積み・配車計画を最適化
IT関連
2024-10-31 03:43
表と裏を独立検知できる布地タッチセンサー Google、「ZebraSense」開発 :Innovative Tech
イラスト・デザイン
2021-03-17 15:16
ONE WEDGE、SESビジネス向けに帳票作成のデジタル化を支援
IT関連
2022-11-18 19:35
チャット相手が人間かボットか30%以上が判別できず–チューリングゲームの参加者
IT関連
2023-06-03 12:18
セールスフォース、自律型AIエージェント「Einstein Service Agent」発表
IT関連
2024-07-24 15:32
甘いクラウドセキュリティは格好の攻撃ターゲット–IAMポリシー見直しなど重要に
IT関連
2022-04-20 11:55
Google、オフィスに入るにはワクチン接種義務付け 在宅勤務は10月18日まで延長
企業・業界動向
2021-07-30 15:02
大企業のアプリケーションテストや効果の実態–トライセンティスが調査
IT関連
2024-12-14 01:24
freee、健康診断/ストレスチェックの管理業務を効率化する新サービス
IT関連
2023-09-28 06:14
アクセンチュア、KDDIのパーソナル事業におけるDXを支援
IT関連
2021-04-22 05:21