グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは

今回は「グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは」についてご紹介します。

関連ワード（ソフトウェア等）についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。

　Googleは昔からずっとスピードにこだわってきた。検索の応答時間であれ、製品の市場投入時間であれ、Googleは常に速さを追求してきた。このアプローチはおおむね同社に利益をもたらしている。より包括的な検索結果をより迅速に返すことで、Googleは市場のトップに上り詰めた。

　しかし、製品の迅速なリリースが原因で、パブリックベータ版、製品の失敗や終了を繰り返してきた長い歴史もある。Googleの過去の失敗をすべて列挙した「Killed by Google」というウェブサイトさえ存在する。失敗に終わった製品の数は驚くほど多いが、「Gmail」や「AdSense」などの成功例もある。これらの製品は、同社が検索をはるかに越えて急成長するのに寄与した。

　したがって、GoogleがAI革命に取り残されたように思えたこの約1年間、同社の経営陣が大きないら立ちを感じていたであろうことは想像に難くない。Googleは何年もAIテクノロジーに投資してきたが、「ChatGPT」が彗星（すいせい）のごとく現れ、極めて短期間のうちにチャットボット市場を支配した。

　もちろん、Googleも対策を打ち出した。2023年末に発表された同社の生成AIツール「Gemini」は、Googleの検索エンジン結果ページ（SERP）の上部に埋め込まれている。GoogleとAlphabetの最高経営責任者（CEO）であるSundar Pichai氏は米国時間12月11日のブログ投稿で、「当社の『AIによる概要』は現在、10億人のユーザーにリーチしている。全く新しいタイプの質問をすることが可能になるため、急速に、これまでで最も人気のある当社の検索機能の1つになりつつある」と報告した。

　しかし、筆者が過去の記事で実際にテストしながら解説したように、GoogleのAIはコーディングだけでなく、自身の能力に対する認識に関しても、かなりの問題があった。

　だが、先ほど紹介したブログ記事で、Pichai氏は「2023年12月に『Gemini 1.0』をリリースして以来、何百万人もの開発者が『Google AI Studio』と『Vertex AI』を通して、Geminiで開発を行ってきた」と主張している。

　その主張にうそはないはずだ。おそらく、GoogleのAIは特定の開発タスクには適しているが、そのほかのタスクには適していないのだろう。Googleは主に「Python」を使用するので、それらの開発者のほとんどはPython関連のプロジェクトに取り組んでいたに違いない。

　言い換えると、改善の余地があったということだ。改善が施された可能性は十分にある。Googleは11日、開発者関連の多数の改善点とともに「Gemini 2.0」を発表した。

　Gemini 2.0は、Google DeepMindのCEOであるDemis Hassabis氏と最高技術責任者（CTO）のKoray Kavukcuoglu氏のブログ投稿で発表された。一番上の見出しには、Gemini 2.0は「エージェント時代に向けた新しいAIモデル」であると書かれている。

　エージェントの部分については後述する。先にGemini 2.0モデルについて解説する必要があるからだ。厳密に言えば、Gemini 2.0は複数のモデルで構成されている。11日に発表されたのは、「Gemini 2.0 Flash」の試験運用版だ。Googleはこれについて、「最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデル」と述べている。

　少し説明が必要だろう。

　「Gemini Flash」モデルはチャットボットではなく、チャットボットやほかの多くのアプリケーションを支えている。基本的に、Flashという名称は、このモデルが開発者向けであることを意味している。

　今回の発表でも、スピードが重要な要素となっていた。Hassabis氏とKavukcuoglu氏によると、Gemini 2.0 Flashの速度は「Gemini 1.5 Flash」の2倍だという。

　Gemini Flashの過去のバージョンは、画像や動画、音声などのマルチモーダル入力をサポートしていた。Gemini 2.0 Flashは、「ネイティブ生成画像やテキスト、操作可能なテキスト読み上げ（TTS）による多言語音声」などのマルチモーダル出力をサポートする。「Google検索やコード実行、サードパーティーのユーザー定義関数などのツールをネイティブに呼び出すこともできる」

　ちなみに、操作可能な音声合成とは、音声のカスタマイズ（例えば、男性と女性を選択可能）、口調（フォーマル、フレンドリーなど）、話し方の速度とリズム、場合によっては言語も指定できるということだ。

　開発者は今すぐGemini 2.0 Flashを使用できる。Gemini 2.0 Flashは、Google AI StudioとVertex AIの「Google API」を使用してアクセス可能な試験運用版モデルという形で提供される。マルチモーダル入力とテキスト出力はすべての開発者が利用可能だが、音声合成と画像生成機能を利用できるのは、Googleの早期アクセスパートナーだけだ。

　開発者以外のユーザーも、デスクトップ版とモバイル版のGemini AIアシスタントを通して、Gemini 2.0を試すことができる。「チャットに最適化」された2.0 Flashの試験運用版はモデルのドロップダウンメニューから選択可能で、「ユーザーはさらに便利なGeminiアシスタントを体験できる」。

元記事： https://japan.zdnet.com/article/35227291/

IT関連 #ソフトウェア