NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に

今回は「NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に」についてご紹介します。

関連ワード（ネットワーク等）についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。

　NTTコミュニケーションズ（NTT Com）は10月7日、次世代情報通信基盤「IOWN構想」の主要技術であるオールフォトニクスネットワーク（APN）を活用した分散データセンターでの生成AI学習に成功したと発表した。同日に開催された記者向けの説明会では、イノベーションセンター IOWN推進室担当部長の張暁晶（ちょう・ぎょうしょう）氏が実証実験について解説した。

　IOWNは、光関連技術および情報処理技技術処理を活用したネットワーク・情報処理基盤。IOWNの主要技術であるIOWN APNは、通信ネットワーク全ての区間で光波長を占有することで、大容量・高品質、低遅延、低消費電力を実現する。2024年3月には、APN専用線プラン「powered by IOWN」の提供を開始している。
IOWN APNの特徴

　今回の実証実験では、NVIDIA GPU搭載サーバーを約40km離れた三鷹と秋葉原（ともに東京都）のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続。複数GPUサーバーを用いた分散学習に対応した「NVIDIA NeMo」を活用して両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。

　取り組みの背景について張氏は、「生成AIやデータ活用、メディア処理などさまざまな分野で膨大な計算資源が必要になってきており、GPUの需要が非常に高まっている」ことを挙げた。大量の計算をする際は、複数台のGPUサーバーを並べて同時に使う“GPUクラスター”を使うことが一般的で、従来はGPUクラスターを単一のデータセンター内で構築するのが主流だった。しかし、処理量の変動に応じて柔軟にGPUリソースを入手できないことや、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しい点、1拠点のデータセンターのキャパシティーや電力供給に限界があるなどの課題があったという。

　これらの課題を解決し、GPUクラスターの利用者や提供事業者に貢献するために、同社では「GPU over APN」を企画。GPU over APNは、IOWN APNの高速・大容量・低遅延の特徴を生かして、複数のデータセンターを相互接続して柔軟にGPUサーバーやストレージなどの計算リソースを分散配置するという考え方に基づいたものになる。

　これにより、処理量の変動に応じたGPUリソースの確保や、利用者の拠点から移動できない機密度の高いデータの取り扱いが可能になるという。また、1つのデータセンターの床面積や電力供給能力に制限されないなどのメリットが挙げられる。

　張氏は、GPU over APNのユースケースを説明。1つ目は、2つのGPUサーバーを異なるデータセンターに配置した際に、GPUクラスターの拡張・伸縮性の向上や事業継続計画（BCP）対策に利用できるとしている。また、異なる組織や会社間でコラボレーションする場合に連携して処理ができる。2つ目のユースケースでは、GPUサーバーとストレージを移設することなく、遠隔地から高速にデータの読み書きをできるようにするという。

　今回は、2つのユースケースを基に実証実験を行った。1つ目は、2つのGPUサーバーを2カ所の拠点に設置した際に、従来の単一のデータセンターに設置した場合と比較して性能の差を測定した。実証実験では、大規模言語モデル「Llama 2 7B」の事前学習を「NVIDIA H100」のGPUクラスター上で実施。その結果、単一データセンターでの学習の所要時間を1とした時、分散データセンターとIOWN APNを組み合わせた場合、約1.006倍とほぼ同等の性能を発揮することが分かった。

　2つ目の実証では、GPUサーバーから他拠点に設置したストレージへのNFSアクセスの性能をベンチマークツール「GPU Direct Storage」を用いて測定した。その結果、単一データセンターでのデータ読み出し所要時間を1とした場合、APN経由で接続された2カ所のデータセンターを連携した場合の所用時間は約1.1倍とほぼ互角になることが明らかになった。

　張氏は実証結果を受け、GPUとGPU間、GPUとストレージ間のどちらでもIOWN APN経由で接続した分散データセンターの実用性や、APNの優位性を確認できたとしている。また、小規模な生成AIモデルの事前学習や追加学習などの軽量な処理に対しては、分散データセンターでも単一データセンターと遜色ない性能を発揮できることが分かったと解説した。

　今後の展望として同氏は「実証で得られたノウハウを既存のサービスに反映し、複合的な事業ソリューションとして育て、お客さま提供や事業化につなげていきたい」と話す。そのために、より大規模なGPUクラスターや、より重い処理に適応する際の技術課題を特定・解決していく。また、GPUクラスターを利用する顧客や提供事業者が具体的に抱える課題やニーズを深掘りしていくとしている。

　今後は、この実証に興味・関心あるいは課題感を持つ企業や団体を共創パートナーとして募集するという。

元記事： https://japan.zdnet.com/article/35224685/

IT関連 #ネットワーク