NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に

今回は「NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 NTTコミュニケーションズ(NTT Com)は10月7日、次世代情報通信基盤「IOWN構想」の主要技術であるオールフォトニクスネットワーク(APN)を活用した分散データセンターでの生成AI学習に成功したと発表した。同日に開催された記者向けの説明会では、イノベーションセンター IOWN推進室 担当部長の張暁晶(ちょう・ぎょうしょう)氏が実証実験について解説した。

 IOWNは、光関連技術および情報処理技技術処理を活用したネットワーク・情報処理基盤。IOWNの主要技術であるIOWN APNは、通信ネットワーク全ての区間で光波長を占有することで、大容量・高品質、低遅延、低消費電力を実現する。2024年3月には、APN専用線プラン「powered by IOWN」の提供を開始している。
IOWN APNの特徴

 今回の実証実験では、NVIDIA GPU搭載サーバーを約40km離れた三鷹と秋葉原(ともに東京都)のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続。複数GPUサーバーを用いた分散学習に対応した「NVIDIA NeMo」を活用して両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。

 取り組みの背景について張氏は、「生成AIやデータ活用、メディア処理などさまざまな分野で膨大な計算資源が必要になってきており、GPUの需要が非常に高まっている」ことを挙げた。大量の計算をする際は、複数台のGPUサーバーを並べて同時に使う“GPUクラスター”を使うことが一般的で、従来はGPUクラスターを単一のデータセンター内で構築するのが主流だった。しかし、処理量の変動に応じて柔軟にGPUリソースを入手できないことや、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しい点、1拠点のデータセンターのキャパシティーや電力供給に限界があるなどの課題があったという。

 これらの課題を解決し、GPUクラスターの利用者や提供事業者に貢献するために、同社では「GPU over APN」を企画。GPU over APNは、IOWN APNの高速・大容量・低遅延の特徴を生かして、複数のデータセンターを相互接続して柔軟にGPUサーバーやストレージなどの計算リソースを分散配置するという考え方に基づいたものになる。

 これにより、処理量の変動に応じたGPUリソースの確保や、利用者の拠点から移動できない機密度の高いデータの取り扱いが可能になるという。また、1つのデータセンターの床面積や電力供給能力に制限されないなどのメリットが挙げられる。

 張氏は、GPU over APNのユースケースを説明。1つ目は、2つのGPUサーバーを異なるデータセンターに配置した際に、GPUクラスターの拡張・伸縮性の向上や事業継続計画(BCP)対策に利用できるとしている。また、異なる組織や会社間でコラボレーションする場合に連携して処理ができる。2つ目のユースケースでは、GPUサーバーとストレージを移設することなく、遠隔地から高速にデータの読み書きをできるようにするという。

 今回は、2つのユースケースを基に実証実験を行った。1つ目は、2つのGPUサーバーを2カ所の拠点に設置した際に、従来の単一のデータセンターに設置した場合と比較して性能の差を測定した。実証実験では、大規模言語モデル「Llama 2 7B」の事前学習を「NVIDIA H100」のGPUクラスター上で実施。その結果、単一データセンターでの学習の所要時間を1とした時、分散データセンターとIOWN APNを組み合わせた場合、約1.006倍とほぼ同等の性能を発揮することが分かった。

 2つ目の実証では、GPUサーバーから他拠点に設置したストレージへのNFSアクセスの性能をベンチマークツール「GPU Direct Storage」を用いて測定した。その結果、単一データセンターでのデータ読み出し所要時間を1とした場合、APN経由で接続された2カ所のデータセンターを連携した場合の所用時間は約1.1倍とほぼ互角になることが明らかになった。

 張氏は実証結果を受け、GPUとGPU間、GPUとストレージ間のどちらでもIOWN APN経由で接続した分散データセンターの実用性や、APNの優位性を確認できたとしている。また、小規模な生成AIモデルの事前学習や追加学習などの軽量な処理に対しては、分散データセンターでも単一データセンターと遜色ない性能を発揮できることが分かったと解説した。

 今後の展望として同氏は「実証で得られたノウハウを既存のサービスに反映し、複合的な事業ソリューションとして育て、お客さま提供や事業化につなげていきたい」と話す。そのために、より大規模なGPUクラスターや、より重い処理に適応する際の技術課題を特定・解決していく。また、GPUクラスターを利用する顧客や提供事業者が具体的に抱える課題やニーズを深掘りしていくとしている。

 今後は、この実証に興味・関心あるいは課題感を持つ企業や団体を共創パートナーとして募集するという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「これからはSIそのものがAIによって代替される」–IIJ鈴木会長が予見
IT関連
2024-11-15 23:52
メガクラウドベンダーがスタートアップ企業の支援に注力する理由
IT関連
2022-03-04 23:34
IIJ、海外収録公演のネット配信を支援–入国制限の中、テクノロジーで演奏届ける
IT関連
2021-04-12 21:16
オンラインとオフラインのコミュニケーションをよりシームレスに–oViceのジョンCEO
IT関連
2022-06-11 08:00
SAP、マイクロソフトと協業で生成AIの機能提供–企業に必要なスキル獲得を支援
IT関連
2023-05-19 23:35
保有物件の収支管理をクラウドで一元管理、不動産による資産形成を支援するヤモリが5000万円調達
ネットサービス
2021-06-10 01:24
日本経済新聞社、運営サイトに同意管理プラットフォーム導入–「改正電通法」対応で
IT関連
2023-06-18 15:20
コープこうべ、青果スコアリングデータの活用を実証実験
IT関連
2021-08-18 22:28
御堂筋税理⼠法⼈、「Microsoft 365」の運用管理工数を約70%削減
IT関連
2024-10-31 06:12
ランサムウェア攻撃から2週間 富士フイルム、顧客向け通常業務が復旧
セキュリティ
2021-06-16 23:10
富士通、理研の量子コンピューターと連携するプラットフォームを提供
IT関連
2023-10-07 19:00
テレワークが「自立」後押し “次の一歩”で「社外」で活躍することへの関心高まる
IT関連
2021-01-28 17:17
GitHub、移行ツール「GitHub Enterprise Importer」を一般提供
IT関連
2023-06-16 05:40
Salesforceのプレジデント兼CPOにVlocityの元CEOデビッド・シューマイヤー氏が昇格
ソフトウェア
2021-02-03 14:05