NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に

今回は「NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 NTTコミュニケーションズ(NTT Com)は10月7日、次世代情報通信基盤「IOWN構想」の主要技術であるオールフォトニクスネットワーク(APN)を活用した分散データセンターでの生成AI学習に成功したと発表した。同日に開催された記者向けの説明会では、イノベーションセンター IOWN推進室 担当部長の張暁晶(ちょう・ぎょうしょう)氏が実証実験について解説した。

 IOWNは、光関連技術および情報処理技技術処理を活用したネットワーク・情報処理基盤。IOWNの主要技術であるIOWN APNは、通信ネットワーク全ての区間で光波長を占有することで、大容量・高品質、低遅延、低消費電力を実現する。2024年3月には、APN専用線プラン「powered by IOWN」の提供を開始している。
IOWN APNの特徴

 今回の実証実験では、NVIDIA GPU搭載サーバーを約40km離れた三鷹と秋葉原(ともに東京都)のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続。複数GPUサーバーを用いた分散学習に対応した「NVIDIA NeMo」を活用して両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。

 取り組みの背景について張氏は、「生成AIやデータ活用、メディア処理などさまざまな分野で膨大な計算資源が必要になってきており、GPUの需要が非常に高まっている」ことを挙げた。大量の計算をする際は、複数台のGPUサーバーを並べて同時に使う“GPUクラスター”を使うことが一般的で、従来はGPUクラスターを単一のデータセンター内で構築するのが主流だった。しかし、処理量の変動に応じて柔軟にGPUリソースを入手できないことや、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しい点、1拠点のデータセンターのキャパシティーや電力供給に限界があるなどの課題があったという。

 これらの課題を解決し、GPUクラスターの利用者や提供事業者に貢献するために、同社では「GPU over APN」を企画。GPU over APNは、IOWN APNの高速・大容量・低遅延の特徴を生かして、複数のデータセンターを相互接続して柔軟にGPUサーバーやストレージなどの計算リソースを分散配置するという考え方に基づいたものになる。

 これにより、処理量の変動に応じたGPUリソースの確保や、利用者の拠点から移動できない機密度の高いデータの取り扱いが可能になるという。また、1つのデータセンターの床面積や電力供給能力に制限されないなどのメリットが挙げられる。

 張氏は、GPU over APNのユースケースを説明。1つ目は、2つのGPUサーバーを異なるデータセンターに配置した際に、GPUクラスターの拡張・伸縮性の向上や事業継続計画(BCP)対策に利用できるとしている。また、異なる組織や会社間でコラボレーションする場合に連携して処理ができる。2つ目のユースケースでは、GPUサーバーとストレージを移設することなく、遠隔地から高速にデータの読み書きをできるようにするという。

 今回は、2つのユースケースを基に実証実験を行った。1つ目は、2つのGPUサーバーを2カ所の拠点に設置した際に、従来の単一のデータセンターに設置した場合と比較して性能の差を測定した。実証実験では、大規模言語モデル「Llama 2 7B」の事前学習を「NVIDIA H100」のGPUクラスター上で実施。その結果、単一データセンターでの学習の所要時間を1とした時、分散データセンターとIOWN APNを組み合わせた場合、約1.006倍とほぼ同等の性能を発揮することが分かった。

 2つ目の実証では、GPUサーバーから他拠点に設置したストレージへのNFSアクセスの性能をベンチマークツール「GPU Direct Storage」を用いて測定した。その結果、単一データセンターでのデータ読み出し所要時間を1とした場合、APN経由で接続された2カ所のデータセンターを連携した場合の所用時間は約1.1倍とほぼ互角になることが明らかになった。

 張氏は実証結果を受け、GPUとGPU間、GPUとストレージ間のどちらでもIOWN APN経由で接続した分散データセンターの実用性や、APNの優位性を確認できたとしている。また、小規模な生成AIモデルの事前学習や追加学習などの軽量な処理に対しては、分散データセンターでも単一データセンターと遜色ない性能を発揮できることが分かったと解説した。

 今後の展望として同氏は「実証で得られたノウハウを既存のサービスに反映し、複合的な事業ソリューションとして育て、お客さま提供や事業化につなげていきたい」と話す。そのために、より大規模なGPUクラスターや、より重い処理に適応する際の技術課題を特定・解決していく。また、GPUクラスターを利用する顧客や提供事業者が具体的に抱える課題やニーズを深掘りしていくとしている。

 今後は、この実証に興味・関心あるいは課題感を持つ企業や団体を共創パートナーとして募集するという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
DNP、イオン株式上場50周年を記念したバーチャルミュージアムの構築支援
IT関連
2024-06-19 12:23
ISIDと地銀5行、共同利用型SFA・CRM/融資審査システムを開発へ
IT関連
2021-05-07 10:43
ランサムウェア「LockBit 2.0」、FBIが注意喚起–推奨されるリスク軽減策など提示
IT関連
2022-02-10 15:24
両備システムズの事業戦略、2030年に売上高500億円へ
IT関連
2022-09-08 10:13
ソフトバンクが社長交代 宮川副社長が昇格 宮内氏は会長、孫氏は「創業者取締役」に
企業・業界動向
2021-01-27 09:37
物流事業のNRS、「SAP S/4HANA Cloud」で管理会計・グループ会計を強化
IT関連
2023-09-26 09:10
オラクル、ファイアウォールや安全設定支援などのクラウドセキュリティ機能を発表
IT関連
2022-05-26 08:38
来場者100万人規模、巨大VRイベント「バーチャルマーケット」がクリエイターや企業から注目される理由
PR
2021-03-23 23:54
IIJ、企業の事業特性に合わせた人材開発を支援
IT関連
2024-09-28 12:12
リアルタイム翻訳機能付きVRオフィス、ロゼッタらが開発へ 会話を自動で多言語変換
DX
2021-03-11 09:57
経済産業省、年間25万件の紙申請をデジタル化–行政手続きコスト4割削減へ
IT関連
2021-08-19 14:59
パナソニック、「AI倫理原則」を発表–グループ全体での順守を推進
IT関連
2022-08-31 02:38
シンガポール、サンドボックスを活用して生成AIアプリケーションの開発を促進へ
IT関連
2023-07-26 16:24
SBペイメントサービス、5年にわたるプラットフォーム変革の取り組みを米国で発表
IT関連
2024-09-14 16:04