NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に

今回は「NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 NTTコミュニケーションズ(NTT Com)は10月7日、次世代情報通信基盤「IOWN構想」の主要技術であるオールフォトニクスネットワーク(APN)を活用した分散データセンターでの生成AI学習に成功したと発表した。同日に開催された記者向けの説明会では、イノベーションセンター IOWN推進室 担当部長の張暁晶(ちょう・ぎょうしょう)氏が実証実験について解説した。

 IOWNは、光関連技術および情報処理技技術処理を活用したネットワーク・情報処理基盤。IOWNの主要技術であるIOWN APNは、通信ネットワーク全ての区間で光波長を占有することで、大容量・高品質、低遅延、低消費電力を実現する。2024年3月には、APN専用線プラン「powered by IOWN」の提供を開始している。
IOWN APNの特徴

 今回の実証実験では、NVIDIA GPU搭載サーバーを約40km離れた三鷹と秋葉原(ともに東京都)のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続。複数GPUサーバーを用いた分散学習に対応した「NVIDIA NeMo」を活用して両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。

 取り組みの背景について張氏は、「生成AIやデータ活用、メディア処理などさまざまな分野で膨大な計算資源が必要になってきており、GPUの需要が非常に高まっている」ことを挙げた。大量の計算をする際は、複数台のGPUサーバーを並べて同時に使う“GPUクラスター”を使うことが一般的で、従来はGPUクラスターを単一のデータセンター内で構築するのが主流だった。しかし、処理量の変動に応じて柔軟にGPUリソースを入手できないことや、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しい点、1拠点のデータセンターのキャパシティーや電力供給に限界があるなどの課題があったという。

 これらの課題を解決し、GPUクラスターの利用者や提供事業者に貢献するために、同社では「GPU over APN」を企画。GPU over APNは、IOWN APNの高速・大容量・低遅延の特徴を生かして、複数のデータセンターを相互接続して柔軟にGPUサーバーやストレージなどの計算リソースを分散配置するという考え方に基づいたものになる。

 これにより、処理量の変動に応じたGPUリソースの確保や、利用者の拠点から移動できない機密度の高いデータの取り扱いが可能になるという。また、1つのデータセンターの床面積や電力供給能力に制限されないなどのメリットが挙げられる。

 張氏は、GPU over APNのユースケースを説明。1つ目は、2つのGPUサーバーを異なるデータセンターに配置した際に、GPUクラスターの拡張・伸縮性の向上や事業継続計画(BCP)対策に利用できるとしている。また、異なる組織や会社間でコラボレーションする場合に連携して処理ができる。2つ目のユースケースでは、GPUサーバーとストレージを移設することなく、遠隔地から高速にデータの読み書きをできるようにするという。

 今回は、2つのユースケースを基に実証実験を行った。1つ目は、2つのGPUサーバーを2カ所の拠点に設置した際に、従来の単一のデータセンターに設置した場合と比較して性能の差を測定した。実証実験では、大規模言語モデル「Llama 2 7B」の事前学習を「NVIDIA H100」のGPUクラスター上で実施。その結果、単一データセンターでの学習の所要時間を1とした時、分散データセンターとIOWN APNを組み合わせた場合、約1.006倍とほぼ同等の性能を発揮することが分かった。

 2つ目の実証では、GPUサーバーから他拠点に設置したストレージへのNFSアクセスの性能をベンチマークツール「GPU Direct Storage」を用いて測定した。その結果、単一データセンターでのデータ読み出し所要時間を1とした場合、APN経由で接続された2カ所のデータセンターを連携した場合の所用時間は約1.1倍とほぼ互角になることが明らかになった。

 張氏は実証結果を受け、GPUとGPU間、GPUとストレージ間のどちらでもIOWN APN経由で接続した分散データセンターの実用性や、APNの優位性を確認できたとしている。また、小規模な生成AIモデルの事前学習や追加学習などの軽量な処理に対しては、分散データセンターでも単一データセンターと遜色ない性能を発揮できることが分かったと解説した。

 今後の展望として同氏は「実証で得られたノウハウを既存のサービスに反映し、複合的な事業ソリューションとして育て、お客さま提供や事業化につなげていきたい」と話す。そのために、より大規模なGPUクラスターや、より重い処理に適応する際の技術課題を特定・解決していく。また、GPUクラスターを利用する顧客や提供事業者が具体的に抱える課題やニーズを深掘りしていくとしている。

 今後は、この実証に興味・関心あるいは課題感を持つ企業や団体を共創パートナーとして募集するという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
LINEがオープンソースで「LINE FIDO2 Server」公開。パスワード不要でログインできる「FIDO2/WebAuthn」を実現
FIDO/WebAuthn
2021-08-16 14:08
「ローカル5G」の課題と今後の行方–JEITAの調査から探る
IT関連
2023-01-27 00:45
2025年に4000量子ビット超を目指す–日本IBMが示す量子プロセッサーの工程表と意義
IT関連
2022-07-02 14:08
freee、「freee登記」「freee許認可」を発表–変更登記や許認可申請を容易に
IT関連
2022-09-09 18:38
Microsoft EdgeにAdobe Acrobat純正のPDFエンジンを標準搭載へ、マイクロソフトとアドビが発表
Adobe
2023-02-10 03:19
映画「シン・エヴァ」興行収入100億円突破 公開から127日で
くらテク
2021-07-14 05:29
月額2万4800円で都内300部屋が使い放題、テレスペが多拠点セカンドハウスサービスを先着1000名に提供
シェアリングエコノミー
2021-06-10 19:17
Instagramがストーリーに自動キャプション機能を追加、近々リールにも(英語のみ)
ネットサービス
2021-05-06 23:25
ツイッターがTor経由で匿名アクセスできる公式サイトを開設、ロシア当局による検閲回避のため
IT関連
2022-03-10 22:01
アマゾンがアプリストアの手数料引き下げとAWSクレジットで小規模開発者を支援
ソフトウェア
2021-06-19 17:13
エイピアCEOが語る、初の通期黒字化と業績好調の背景
IT関連
2023-03-25 08:29
富士通クラウドテクノロジーズとJAXA、衛星データ前処理ツールの機能・性能を検証
IT関連
2021-03-10 23:49
VMware、マルチクラウドの料金支払いを一本化する「VMware Cloud Universal」発表
クラウドユーザー
2021-04-03 15:02
企業は責任あるAIの使用に向けて今すぐ準備を開始すべき–ガートナー提言
IT関連
2024-04-27 09:34