NTT Com、「IOWN APN」でGPUサーバーの分散DCを構築–3拠点連携で生成AI学習に成功
今回は「NTT Com、「IOWN APN」でGPUサーバーの分散DCを構築–3拠点連携で生成AI学習に成功」についてご紹介します。
関連ワード (ITインフラ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
NTTコミュニケーションズ(NTT Com)は、次世代情報通信基盤「IOWN構想」の主要技術「オールフォトニクスネットワーク」(APN)で接続した3拠点のデータセンター(DC)にGPUサーバー「NVIDIA H100」を分散配置した環境を構築。この環境下で、「NVIDIA NeMo」を用いた大規模言語モデル(LLM)「tsuzumi」の学習に成功した。世界で初めてとなる。3月19日に発表された。
NTT Comは2024年10月7日、三鷹と秋葉原の2拠点のDC間でAPNによるGPUクラスターの実効性を検証し、その効果性を確認していた(参考記事)。DCの分散を進めることで、余ったGPUサーバーを再利用するような最適なGPUリソースの配置がより実用的になるとする。また、各地域のDCを活用し、複数の拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用を実現する。
今回の実証では、Point-to-Pointで接続された分散DCの数を2拠点から、川崎を加えた3拠点へと拡張した。これにより、計算基盤の運用に新たな柔軟性が生まれるとしている。NTT Comによれば、A拠点とB拠点に加え、C拠点を活用することで、その土地の電力供給量や価格に応じ、顧客の要望に合わせた複数の運用パターンを選択できるようになる。また、ネットワークの観点からも、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論などのスケジューリングの可能性を実感できる構成となる。
具体的には、NVIDIAアクセラレーテッドサーバーを、それぞれ約25~50km離れた川崎、三鷹、秋葉原の3拠点のDCに分散配置し、DC間を100Gbps回線のIOWN APNで接続した。NVIDIA NeMoで3拠点のGPUサーバーを連携させ、tsuzumiの軽量モデル「7B」の分散学習を実施した。
単一のDCで学習させる場合の所要時間と比較して、インターネットを想定し帯域制限を実施したTCP通信の分散DCでは9.187倍の時間を要した。しかし、IOWN APN経由の分散DCでは1.105倍となり、単一のDCとほぼ同等の性能を発揮できることが確認された。
NTT Comは、分散DCの拠点数の増加と距離延伸の実証と、分散DCにおける通信方法やGPUリソースの最適化検証の観点から今後も実証を進める。また、国内70拠点以上のDC間や顧客の建物などを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した超省エネ型DCサービス「Green Nexcenter」などを組み合わせたGPUクラウドソリューションとして顧客への提供を目指す。