NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に

今回は「NTT Com、「IOWN APN」経由の分散DCで生成AI学習に成功–単一DCと遜色ない結果に」についてご紹介します。

関連ワード (ネットワーク等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 NTTコミュニケーションズ(NTT Com)は10月7日、次世代情報通信基盤「IOWN構想」の主要技術であるオールフォトニクスネットワーク(APN)を活用した分散データセンターでの生成AI学習に成功したと発表した。同日に開催された記者向けの説明会では、イノベーションセンター IOWN推進室 担当部長の張暁晶(ちょう・ぎょうしょう)氏が実証実験について解説した。

 IOWNは、光関連技術および情報処理技技術処理を活用したネットワーク・情報処理基盤。IOWNの主要技術であるIOWN APNは、通信ネットワーク全ての区間で光波長を占有することで、大容量・高品質、低遅延、低消費電力を実現する。2024年3月には、APN専用線プラン「powered by IOWN」の提供を開始している。
IOWN APNの特徴

 今回の実証実験では、NVIDIA GPU搭載サーバーを約40km離れた三鷹と秋葉原(ともに東京都)のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続。複数GPUサーバーを用いた分散学習に対応した「NVIDIA NeMo」を活用して両拠点のGPUサーバーを連携させ、生成AIモデルの分散学習を実施した。

 取り組みの背景について張氏は、「生成AIやデータ活用、メディア処理などさまざまな分野で膨大な計算資源が必要になってきており、GPUの需要が非常に高まっている」ことを挙げた。大量の計算をする際は、複数台のGPUサーバーを並べて同時に使う“GPUクラスター”を使うことが一般的で、従来はGPUクラスターを単一のデータセンター内で構築するのが主流だった。しかし、処理量の変動に応じて柔軟にGPUリソースを入手できないことや、利用者の拠点から移動できない機密度の高いデータの取り扱いが難しい点、1拠点のデータセンターのキャパシティーや電力供給に限界があるなどの課題があったという。

 これらの課題を解決し、GPUクラスターの利用者や提供事業者に貢献するために、同社では「GPU over APN」を企画。GPU over APNは、IOWN APNの高速・大容量・低遅延の特徴を生かして、複数のデータセンターを相互接続して柔軟にGPUサーバーやストレージなどの計算リソースを分散配置するという考え方に基づいたものになる。

 これにより、処理量の変動に応じたGPUリソースの確保や、利用者の拠点から移動できない機密度の高いデータの取り扱いが可能になるという。また、1つのデータセンターの床面積や電力供給能力に制限されないなどのメリットが挙げられる。

 張氏は、GPU over APNのユースケースを説明。1つ目は、2つのGPUサーバーを異なるデータセンターに配置した際に、GPUクラスターの拡張・伸縮性の向上や事業継続計画(BCP)対策に利用できるとしている。また、異なる組織や会社間でコラボレーションする場合に連携して処理ができる。2つ目のユースケースでは、GPUサーバーとストレージを移設することなく、遠隔地から高速にデータの読み書きをできるようにするという。

 今回は、2つのユースケースを基に実証実験を行った。1つ目は、2つのGPUサーバーを2カ所の拠点に設置した際に、従来の単一のデータセンターに設置した場合と比較して性能の差を測定した。実証実験では、大規模言語モデル「Llama 2 7B」の事前学習を「NVIDIA H100」のGPUクラスター上で実施。その結果、単一データセンターでの学習の所要時間を1とした時、分散データセンターとIOWN APNを組み合わせた場合、約1.006倍とほぼ同等の性能を発揮することが分かった。

 2つ目の実証では、GPUサーバーから他拠点に設置したストレージへのNFSアクセスの性能をベンチマークツール「GPU Direct Storage」を用いて測定した。その結果、単一データセンターでのデータ読み出し所要時間を1とした場合、APN経由で接続された2カ所のデータセンターを連携した場合の所用時間は約1.1倍とほぼ互角になることが明らかになった。

 張氏は実証結果を受け、GPUとGPU間、GPUとストレージ間のどちらでもIOWN APN経由で接続した分散データセンターの実用性や、APNの優位性を確認できたとしている。また、小規模な生成AIモデルの事前学習や追加学習などの軽量な処理に対しては、分散データセンターでも単一データセンターと遜色ない性能を発揮できることが分かったと解説した。

 今後の展望として同氏は「実証で得られたノウハウを既存のサービスに反映し、複合的な事業ソリューションとして育て、お客さま提供や事業化につなげていきたい」と話す。そのために、より大規模なGPUクラスターや、より重い処理に適応する際の技術課題を特定・解決していく。また、GPUクラスターを利用する顧客や提供事業者が具体的に抱える課題やニーズを深掘りしていくとしている。

 今後は、この実証に興味・関心あるいは課題感を持つ企業や団体を共創パートナーとして募集するという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
約9割のホールスタッフが配膳ロボットとの協働に満足–DFA Robotics調査
IT関連
2024-05-29 11:02
フィッシングやランサムウェアが増加、ウェブアプリ攻撃の脅威も続く
IT関連
2021-05-26 08:30
ゲームインフラのスタートアップPragmaはGreylockやZyngaの創設者などから約13億円調達
ゲーム / eSports
2021-04-22 09:29
英政府、NVIDIAのArm買収に介入–安全保障上の影響を調査へ
IT関連
2021-04-20 14:29
マルチクラウドを「バイデザイン」に–デルが「Project Alpine」披露
IT関連
2022-05-10 21:53
うるう秒、2035年までに廃止へ
IT関連
2022-11-22 17:55
RobloxがDiscordと競合するゲーマー向けチャットプラットフォームのGuildedを買収
ゲーム / eSports
2021-08-18 22:05
ニトリ、法務業務プロセスを刷新–契約の作成からナレッジ化を行うシステムを導入
IT関連
2022-08-14 13:53
企業内の「ダークデータ」に着目–日立、「データ抽出ソリューション」を発売
IT関連
2021-06-25 07:17
地球温暖化がいよいよ「赤信号」、国連IPCCが報告書で警告
EnviroTech
2021-08-11 04:54
鉄建建設、3Dセンサーで鉄道工事の線路内侵入を自動検知
IT関連
2022-12-02 01:38
JICAのWebサイトに不正アクセス、個人情報8418件が流出 Salesforce設定に不備
クラウドユーザー
2021-03-18 11:05
インフォマティカ、AWS上で利用可能なAI搭載データ管理基盤を国内提供
IT関連
2023-06-23 07:26
学研エデュケーショナル、70超の個別業務システムをクラウドに統合
IT関連
2024-05-15 00:58