DeepSeekのAIを30倍高速化–「NVIDIA GTC」で発表されたこと
今回は「DeepSeekのAIを30倍高速化–「NVIDIA GTC」で発表されたこと」についてご紹介します。
関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
2025年1月、大規模言語モデル(LLM)「DeepSeek-R1」の登場は、株式市場の急落をもたらした。その7週間後、AI処理の分野で先陣を切るチップ大手のNVIDIAは、DeepSeekがもたらす安価なAI経済の中心に自社を据えようとしている。
NVIDIAの共同創業者で最高経営責任者(CEO)のJensen Huang氏は米国時間3月18日、カリフォルニア州サンノゼの「SAP Center」で開催中の開発者向け年次イベント「NVIDIA GTC 2025」(3月16~21日)において、同社のGPU「Blackwell」がいかにしてDeepSeek-R1の推論性能を大幅に向上させるかを語った。
NVIDIAは、今回発表されたオープンソースの推論ソフトウェア「NVIDIA Dynamo」によって、Blackwellは、DeepSeek-R1が通常のデータセンターの約30倍の処理能力を持つと主張している。これは、1秒当たりのトークン数で測定される。
NVIDIAでハイパースケールおよび高性能コンピューティングの責任者を務めるIan Buck氏は、事前に開かれた記者会見で「Dynamoはその利点を生かし、DeepSeekをはじめとした推論モデルに対して、同じ数のGPUと同じアーキテクチャーで30倍以上の性能を提供する」と述べた。
3月18日から「GitHub」で入手可能なDynamoは、推論作業を最多1000個のNVIDIAのGPUチップに分散させる。作業を分散して並列処理することで、1秒当たりに達成できる作業量を増やすことが可能となる。
その結果、100万トークン当たり1ドルが課される推論タスクでは、1秒当たりに実行できるトークンの数が増え、GPUを提供するサービスの1秒当たりの売り上げが増加する。
Buck氏は「サービスプロバイダーは、DeepSeek上でより多くの顧客からのクエリー(問い合わせ)を実行するか、あるいは特定の顧客に多くの処理能力を割り当て、プレミアムサービスとして追加料金を請求するかを選べる」と述べた。
Buck氏は「AIファクトリーは、100万トークン当たりのプレミアム料金で、より高品質なサービスを提供できる」とした上で、「ファクトリー全体のトークン総量も増やせる」と続けた。AIファクトリーはNVIDIAの造語で、チップ、ソフトウェア、ラックベースの機器を用いて大量のAI作業を実行する大規模サービスを指す。
「より多くのチップを使用することで、AI推論のスループットを増やし、ひいてはビジネスも成長させる」というNVIDIAの見通しは、「DeepSeekは各クエリーに必要な処理量を削減できるため、コンピューターの処理能力全体の使用量が減少するのではないか」という投資家の懸念に対する答えとなる。
Buck氏によると、DynamoとBlackwellを併用することで、AIデータセンターが旧モデル「Hopper」を使用した場合の約50倍の売り上げを生み出すことが可能になるという。
NVIDIAは、DeepSeek-R1を独自に改良したものを「HuggingFace」に共有した。NVIDIA版では、R1が変数を操作するために使用するビット数を「FP4」(浮動小数点4ビット)に削減する。これは、「B-float 16」(標準の浮動小数点32ビット)に必要な計算量のごく一部である。
「Blackwellの性能は、Hopperから大幅に向上した」とBuck氏は言う。「精度モデルに大きな変更や削減、損失をもたらすことなく実現した。高品質な推論トークンを生成するモデルであることに変わりはない」
Huang氏は、Blackwellの最新版「Blackwell Ultra」も発表した。Ultraでは、DRAM(Dynamic Random Access Memory)を192GBの広帯域メモリー「HBM3E」から最大288GBに増やすなど、さまざまな面を強化している。
CPU「NVIDIA Grace」と組み合わせると、ラックベースのコンピューター「NVIDIA GB300 NVL72」に合計72個のUltraを組み込める。このシステムでは、FP4で実行される推論能力は、「GB200」をベースとした既存のNVL72と比較して、50%以上向上している。