グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは

今回は「グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Googleは昔からずっとスピードにこだわってきた。検索の応答時間であれ、製品の市場投入時間であれ、Googleは常に速さを追求してきた。このアプローチはおおむね同社に利益をもたらしている。より包括的な検索結果をより迅速に返すことで、Googleは市場のトップに上り詰めた。

 しかし、製品の迅速なリリースが原因で、パブリックベータ版、製品の失敗や終了を繰り返してきた長い歴史もある。Googleの過去の失敗をすべて列挙した「Killed by Google」というウェブサイトさえ存在する。失敗に終わった製品の数は驚くほど多いが、「Gmail」や「AdSense」などの成功例もある。これらの製品は、同社が検索をはるかに越えて急成長するのに寄与した。

 したがって、GoogleがAI革命に取り残されたように思えたこの約1年間、同社の経営陣が大きないら立ちを感じていたであろうことは想像に難くない。Googleは何年もAIテクノロジーに投資してきたが、「ChatGPT」が彗星(すいせい)のごとく現れ、極めて短期間のうちにチャットボット市場を支配した。

 もちろん、Googleも対策を打ち出した。2023年末に発表された同社の生成AIツール「Gemini」は、Googleの検索エンジン結果ページ(SERP)の上部に埋め込まれている。GoogleとAlphabetの最高経営責任者(CEO)であるSundar Pichai氏は米国時間12月11日のブログ投稿で、「当社の『AIによる概要』は現在、10億人のユーザーにリーチしている。全く新しいタイプの質問をすることが可能になるため、急速に、これまでで最も人気のある当社の検索機能の1つになりつつある」と報告した。

 しかし、筆者が過去の記事で実際にテストしながら解説したように、GoogleのAIはコーディングだけでなく、自身の能力に対する認識に関しても、かなりの問題があった。

 だが、先ほど紹介したブログ記事で、Pichai氏は「2023年12月に『Gemini 1.0』をリリースして以来、何百万人もの開発者が『Google AI Studio』と『Vertex AI』を通して、Geminiで開発を行ってきた」と主張している。

 その主張にうそはないはずだ。おそらく、GoogleのAIは特定の開発タスクには適しているが、そのほかのタスクには適していないのだろう。Googleは主に「Python」を使用するので、それらの開発者のほとんどはPython関連のプロジェクトに取り組んでいたに違いない。

 言い換えると、改善の余地があったということだ。改善が施された可能性は十分にある。Googleは11日、開発者関連の多数の改善点とともに「Gemini 2.0」を発表した。

 Gemini 2.0は、Google DeepMindのCEOであるDemis Hassabis氏と最高技術責任者(CTO)のKoray Kavukcuoglu氏のブログ投稿で発表された。一番上の見出しには、Gemini 2.0は「エージェント時代に向けた新しいAIモデル」であると書かれている。

 エージェントの部分については後述する。先にGemini 2.0モデルについて解説する必要があるからだ。厳密に言えば、Gemini 2.0は複数のモデルで構成されている。11日に発表されたのは、「Gemini 2.0 Flash」の試験運用版だ。Googleはこれについて、「最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデル」と述べている。

 少し説明が必要だろう。

 「Gemini Flash」モデルはチャットボットではなく、チャットボットやほかの多くのアプリケーションを支えている。基本的に、Flashという名称は、このモデルが開発者向けであることを意味している。

 今回の発表でも、スピードが重要な要素となっていた。Hassabis氏とKavukcuoglu氏によると、Gemini 2.0 Flashの速度は「Gemini 1.5 Flash」の2倍だという。

 Gemini Flashの過去のバージョンは、画像や動画、音声などのマルチモーダル入力をサポートしていた。Gemini 2.0 Flashは、「ネイティブ生成画像やテキスト、操作可能なテキスト読み上げ(TTS)による多言語音声」などのマルチモーダル出力をサポートする。「Google検索やコード実行、サードパーティーのユーザー定義関数などのツールをネイティブに呼び出すこともできる」

 ちなみに、操作可能な音声合成とは、音声のカスタマイズ(例えば、男性と女性を選択可能)、口調(フォーマル、フレンドリーなど)、話し方の速度とリズム、場合によっては言語も指定できるということだ。

 開発者は今すぐGemini 2.0 Flashを使用できる。Gemini 2.0 Flashは、Google AI StudioとVertex AIの「Google API」を使用してアクセス可能な試験運用版モデルという形で提供される。マルチモーダル入力とテキスト出力はすべての開発者が利用可能だが、音声合成と画像生成機能を利用できるのは、Googleの早期アクセスパートナーだけだ。

 開発者以外のユーザーも、デスクトップ版とモバイル版のGemini AIアシスタントを通して、Gemini 2.0を試すことができる。「チャットに最適化」された2.0 Flashの試験運用版はモデルのドロップダウンメニューから選択可能で、「ユーザーはさらに便利なGeminiアシスタントを体験できる」。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「Copilot Pro」と「ChatGPT Plus」、月額20ドル払うとすればどっち?
IT関連
2024-03-22 10:09
平原精機工業、次世代型サイバー攻撃に備えたエンドポイント脅威対策などを導入
IT関連
2023-11-29 06:34
理研ら国際共同研究チーム、医療ビッグデータとコンピューター科学を活用し卵巣がんの新しい治療標的を特定
IT関連
2022-02-09 04:56
Istio、Cloud Native Computing Foundationの正式なプロジェクトとして採択されたと発表。これでクラウドネイティブの基盤ソフトウェアはほぼ全てCNCF傘下に
Istio
2022-09-29 13:59
AI開発競争めぐる論争、マスク氏やゲイツ氏らが見解を表明
IT関連
2023-04-08 05:35
高度成長期の“働く自転車”再現 「ニューマルキン号」100台限定販売
くらテク
2021-05-09 21:28
完全なゼロトラスト実現のために企業のネットワークセキュリティを再定義–パロアルトネットワークス
IT関連
2021-07-07 04:38
契約審査プラットフォーム「LegalForce」、「Azure AD」の連携ソリューションに追加
IT関連
2023-04-01 17:45
長野県信組、営業支援システムにSalesforceを導入–ペーパーレスで環境負荷低減も
IT関連
2023-11-16 04:23
ゼットスケーラー、AI/ML活用した自動分類で設定不要なDLP機能を提供
IT関連
2022-11-17 22:30
第2回:基幹インフラ分野の安全性・信頼性確保に向けた諸外国の法整備
IT関連
2022-08-17 13:33
動画配信「TELASA」、一時視聴しづらい状態に 仮面ライダー特番で視聴者殺到 運営元「YouTube見て」
企業・業界動向
2021-02-10 22:21
日立、製造業やインフラ系企業向けにクラウド型のDX支援サービス
IT関連
2022-10-28 07:58
第42回:列伝2人目「後方支援型ひとり情シス」
IT関連
2022-08-26 14:14