「世界中のAIがOCI上で作られている」–オラクル担当幹部がAIインフラをアピール

今回は「「世界中のAIがOCI上で作られている」–オラクル担当幹部がAIインフラをアピール」についてご紹介します。

関連ワード (ITインフラ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 OracleでOracle Cloud Infrastructure(OCI)担当エグゼクティブ・バイスプレジデントを務めるMahesh Thiagarajan(マヘシュ・シャガラジャン)氏が都内でグループインタビューに応じた。米国ラスベガスで開催の年次カンファレンス「Oracle CloudWorld 2024」で発表された「OCI Supercluster」をはじめとする同社のAIインフラストラクチャーについて戦略を明らかにした。

 同社のAIインフラは、OCI上で提供されるAIサービスである。生成AI、コンピュータビジョン、予測分析などの高度なAIワークロードを迅速に実行するための機能が含まれる。Thiagarajan氏は「幅広いAIインフラストラクチャーを提供しており、最も要求の厳しいAIワークロードをクラウドで実行される顧客を支援している。Oracleの分散クラウドを活用することで、顧客は最高レベルのデータとAIの主権を維持しながら、クラウドサービスやAIサービスを利用したい場所で柔軟に導入できる」と述べる。

 OCIのAIインフラの特徴としては(1)GPUの性能を極限まで引き出すベアメタルサーバー、(2)大規模にスケール可能なOCI Supercluster、(3)I/Oがボトルネックにならない高性能なストレージ――の3点が挙げられる。

 まず1つ目としては、GPUサーバーをベアメタルインスタンスで提供するため、仮想化によるオーバーヘッドが発生せず、GPUの性能を最大限に引き出すことができる。また、GPUに最適なサーバーをNVIDIAと共同で開発しているという。「われわれは、AIトレーニングのためにベアメタルGPUを提供する唯一のハイパースケーラーだ」とThiagarajan氏は強調する。

 2つ目のOCI Superclusterは、最大13万1072基の「NVIDIA Blackwell GPU」を搭載可能なコンピューティングクラスターである。ピーク性能は最大2.4ゼタFLOPSに達し、米国オークリッジ国立研究所のスーパーコンピューター「Frontier」の3倍以上、他のハイパースケーラーの6倍以上のGPU数を提供するという。また、RDMA over Converged Ethernet version 2(RoCE v2)またはNVIDIA Quantum-2 InfiniBandベースの超低遅延ネットワークにより、「GPUを最大限に活用してもネットワークのボトルネックは発生しない」(Thiagarajan氏)という。

 なお、OCI Superclusterは、「NVIDIA H100/H200 Tensor Core GPU」、またはNVIDIA Blackwell GPUを搭載した「OCI Compute」とともに注文を受け付けている。H100を搭載したシステムは、最大1万6384GPUまで拡張でき、最大65エクサFLOPSの性能と13Pb/sのネットワークスループットを提供する。H200を搭載したシステムは、最大6万5536GPUまで拡張でき、最大260エクサFLOPSの性能と52Pb/sのネットワークスループットを提供し、2024年後半に利用を開始する予定。

 「NVIDIA GB200 NVL72」を搭載した液冷ベアメタルインスタンスは、NVLinkおよびNVLink Switchを使用して、単一のNVLinkドメイン内で最大72基のBlackwell GPUと通信し、129.6TB/sの帯域幅を提供する。2025年前半に利用可能になる予定のNVIDIA Blackwell GPUは、第5世代のNVLink、NVLink Switch、およびクラスターネットワーキングを活用し、単一のクラスター内でシームレスなGPU間通信を実現するとしている。

 3つ目はストレージである。「OCI File Storageサービス」の高性能マウントターゲット(HPMT)を利用することで、1テラバイト当たり最大1Gbpsの高スループットでAIワークロードのストレージアクセスが可能になる。また、「マネージドLustreサービス」の利用によって、1TB当たり最大8Gbpsの超高性能なストレージアクセスも可能になる。現在は早期アクセスを提供しており、2025年2月に一般提供を開始する予定となっている。

 「OCIは顧客のニーズを満たすために、10日ごとに1万GPUという記録的な速さで大量のGPUをデリバリーしている」とThiagarajan氏はアピールし、最大規模の大規模言語モデル(LLM)のうちの4つがOCI上で稼働していることを明らかにした。

 「大手LLMからAIスタートアップまで多くの企業がOCIのAIインフラを使っている。世界中のAIがOCI上で作られているといっても過言ではない」(Thiagarajan氏)

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ソラコムが無料でIoTデバイスを貸し出す「自分で学べるIoT通信講座」を8月31日まで開催、専門家が答えるIoT相談会も
IoT
2021-07-03 18:52
ユーザー体験を管理する文化の醸成へ–クアルトリクスが語る、日本市場での現在地点
IT関連
2022-07-12 16:57
ゲリラ豪雨の予報にスパコン「富岳」活用へ 理研などが実証実験
ネットトピック
2021-07-15 04:33
GitHub、「Secure Code Game」シーズン2提供–ゲーム形式のセキュリティトレーニング
IT関連
2024-02-18 18:49
イーロン・マスク氏がClubhouseに登場、ファンがYouTubeへライブストリーム、途中からRobinhood CEOへのインタビューに
ネットサービス
2021-02-02 06:20
デジタル庁事務方トップに伊藤穣一氏を起用か MITメディアラボ元所長、性的虐待疑惑の富豪から資金提供受け辞任の過去も
企業・業界動向
2021-08-08 19:52
「Android」に2つの深刻な脆弱性–アップデートを間もなく配信予定
IT関連
2024-11-07 00:11
医療探知犬の嗅覚を真似した機械学習装置 前立腺がんを同じ精度で検出 :Innovative Tech
トップニュース
2021-03-13 11:37
「カップヌードル」の残り汁を固めるパウダー、日清が小林製薬と共同開発
くらテク
2021-03-30 22:34
患者の潜在的な訴えを抽出–TISと国立がん研究センター東病院が共同研究
IT関連
2022-01-22 03:48
Anthropic、AI限界説に持論–「壁に直面」ではなく「測定の域を超えている」
IT関連
2024-11-28 16:13
【コラム】「大量退職時代」はテックワーカーがキャリア代理人を利用するきっかけになるか?
IT関連
2022-02-03 21:13
あと払いサービスのPaidy、脆弱性管理ツール「Snyk」導入–脆弱性の平均修理時間73%減
IT関連
2022-03-23 23:47
三菱重工とキリングループ、飲料倉庫の自動化で2024年問題に挑む
IT関連
2024-08-24 09:51