AIは既存データセンターで動かせない–デルのCTOに聞く方策
今回は「AIは既存データセンターで動かせない–デルのCTOに聞く方策」についてご紹介します。
関連ワード (CIO/経営、トップインタビュー等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
Dell Technologiesは、同社の年次イベント「Dell Technologies World 2024」で、AI時代に向けた戦略を明確に示した。中核は、イベントで発表した「Dell AI Factory」で、NVIDIAの技術を利用する「Dell AI Factory with NVIDIA」とは分けている。グローバル最高技術責任者(CTO)のJohn Roose氏に、Dell AI Factoryなどの施策を聞いた。
――Dell AI Factoryを発表しました。AI向けインフラの技術スタックといいますが、開発の背景を教えてください。
われわれは、エンタープライズに注力しています。企業がAIを導入する場合、サードパーティーの製品を購入するだけでは、AIプロジェクトの成功を望めません。ターンキーのAIソリューションは存在しません。なぜなら、AIシステムとは、AIのモデルと企業が保有するデータの組み合わせだからです。自社のデータは、あくまで自社のものであり、システムはオーダーメイドになります。
Dell AI Factoryを構築した背景は、スタックの一部を標準化することで、顧客がAIシステムを構築する作業を簡素化できると考えたからです。例えば、コンピュート、ストレージ、ネットワークをどのように構築して統合し、電力や冷却をどうするのかといったベースを、われわれは助けることができます。つまり、AI Factoryはソリューションを丸ごと導入するのではなく、望んでいる成果に合わせて組み合わせるものと言えます。
このようにわれわれは、50%なり70%なりを標準化して、組み立てることができますが、重要なことは、最終的に(データを保有する)顧客が完成させなければならない点です。
逆に言えば、顧客はAI Factoryを利用せず、製品をバラバラにそろえてAIシステムを構築することができます。しかし、AI Factoryを利用することで、短期間に導入できます。これはAI Factoryがもたらす最大の価値です。
――2023年のイベントでDell AI Factory with NVIDIAの前身になる「Project Helix」を発表しました。この1年間にどのような進化や変化があり、Dell AI Factory with NVIDIAとDell AI Factoryになったのでしょうか。
Project Helixの背景には、顧客にとって(AIに必要な)全てのパーツを組み合わせることが大変な作業になるという仮説がありました。NVIDIAには先行したソフトウェア技術、ハードウェア技術があり、提携してスタックを構築しようと考えました。
当時は、既製の言語モデルを再学習したり調整したりしたチャットボットぐらいしか、ユースケースを想定していませんでした。ちょうどProject Helixを発表する頃に、RAG(Retrieval Augmented Generation:拡張検索生成)が登場し、その後も次々と新しい技術が出てきています。
この1年で学んだことをまとめると、まず自分自身のモデルを訓練する必要はなく、RAGを使えば、既製のモデルに自社のデータを加えることができます。また、GPUのロードマップが加速しており、以前はNVIDIAの「H100」がほぼ独占していましたが、AMDの「MI300X」やIntelの「Gaudi 3」、NVIDIAでも「H200」「Grace Hopper」などが発表されました。そこで、われわれのシステムも多様なアクセラレーターに対応するよう変更しました。AI Factoryは、アクセラレーターレベルでオープンになっています。 ネットワークでは、Infinibandのみを考えていましたが、Ethernetも強力であることが分かりました。ここでも顧客に選択肢を提供します。
Project Helixの思想そのものは変わっていませんが、ほぼ全てのレイヤーで多様化し、顧客は、自社に最適なものを選択できるようになりました。Dellはオープン性を信じており、AI Factoryでもそれを実践します。
――AIがオンプレミスの分野に与える影響をどのように見ていますか。
AIのインフラは、これまでのインフラとは全く異なります。既存の環境でもAIを少しできるかもしれませんが、AIシステムをしっかり動かしていくのであれば、データセンターを再設計する必要があります。
この10年ほど顧客と話をしていて、新しいデータセンターを構築するという話は出てきませんでした。誰も関心を持っていなかったですし、その必要もありませんでした。既存のデータセンターがあり、新たにキャパシティーが必要なら、コロケーションを利用したりパブリッククラウドを利用すればいい、というのが去年までの話です。
しかしAIでは、インフラを保有する必要があります。パブリッククラウドでAIをするには高価であり、リスクも伴います。
――CIOやCTOなどは、そのことをどのぐらい理解しているのでしょうか。
私見ですが、あまり理解は進んでいないでしょう。動きの速い分野なので当然です。
AIのインパクトに近いものにインターネットがありますが、インターネットの普及には20年以上を要しました。生成AIは、2022年11月の「ChatGPT」の公開から数カ月で実に数億人がアクセスしたと言われています。
われわれも迅速に動かなければなりません。Dellは、1年前とは全く異なる企業になりました。顧客がAIを活用するために、まずわれわれが変わらなければならないからです。
Dellは、リファレンスアーキテクチャーを多数提供しており、顧客も迅速に学んでいます。現在、AIプロジェクトがないという企業であっても、データサイエンスチームやデータ担当者はいます。AIは新しいかもしれませんが、データはこの10年、ずっとその重要性が言われてきていますから、全くゼロからのスタートということではありません。
なお、2023年に日本を訪問した際、複数の大手企業の最高デジタル責任者にお会いしました。まだ運用には入っていないものの、どの企業にもAIプロジェクトがありました。
――クラウドのハイパースケーラーが「AIエージェント」として、簡単にAIを組み込んだアプリやサービスを構築できるサービスを用意する動きがあります。AI Factoryの差別化は何でしょうか。
ハイパースケーラーでAIエージェントを作成すると、そのハイパースケーラーのクラウドインフラ上で実行する必要があります。AI Factoryでは、自分たちのところにデータを置くことができます。
われわれの顧客には、Google Cloudの「TensorFlow」を使ってモデルとアーキテクチャーを開発し、オンプレミスで動かすケースが多いですね。これは、TensorFlowがオープンだからであり、素晴らしいことだと思います。
Dellは、マルチクラウドが今後の姿だと考えており、ハイパースケーラーとも良好な関係を構築しています。ハイパースケーラーの環境は、大規模なトレーニングには適しているでしょう。しかし、AIアプリケーションの実行やデータの保存場所としては、適していないのです。
――AIの時代、進化がさらに加速しています。CIOとしての優先事項を教えてください。
実は、5年前に「MIPS」や「IOPS」で測定される世界のITキャパシティーのほとんどが、従来のアプリケーションやユーザーではなく、AIに使われる時代が来るという予想を出しました。それに向けて「AIファースト」のアーキテクチャーが必要になるという予想です。
その予想の下で、2023年の今ごろまでは、戦略を立ててAIの時代にDellがどのようなポジションで関わっていくのかを考えていました。その通りになりましたし、Dellとして準備を進め5年が経過しました。そこで、2024年は優先順位が変わったのです。
現在はCTOがやるべきこととして、戦略のリスク軽減に集中しています。AIの世界には不確実性があり、全てが明確ではありせん。「AI PC」のソフトウェアエコシステムも明確ではなく、そこを解明していきます。先ほど「エージェント」という言葉がありましたが、「エージェント」が何を指すのでしょうか。まだ、定義がしっかり定まっていません。
このようなことから、継続して戦略の策定を手伝いますが、フォーカスをリスクの回避に移しています。また、急に新しいものが登場して驚くことがないよう、量子やデジタルツイン、分散型台帳アーキテクチャなどの新しい技術にも時間を費やしています。
(取材協力:デル・テクノロジーズ)