グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは

今回は「グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Googleは昔からずっとスピードにこだわってきた。検索の応答時間であれ、製品の市場投入時間であれ、Googleは常に速さを追求してきた。このアプローチはおおむね同社に利益をもたらしている。より包括的な検索結果をより迅速に返すことで、Googleは市場のトップに上り詰めた。

 しかし、製品の迅速なリリースが原因で、パブリックベータ版、製品の失敗や終了を繰り返してきた長い歴史もある。Googleの過去の失敗をすべて列挙した「Killed by Google」というウェブサイトさえ存在する。失敗に終わった製品の数は驚くほど多いが、「Gmail」や「AdSense」などの成功例もある。これらの製品は、同社が検索をはるかに越えて急成長するのに寄与した。

 したがって、GoogleがAI革命に取り残されたように思えたこの約1年間、同社の経営陣が大きないら立ちを感じていたであろうことは想像に難くない。Googleは何年もAIテクノロジーに投資してきたが、「ChatGPT」が彗星(すいせい)のごとく現れ、極めて短期間のうちにチャットボット市場を支配した。

 もちろん、Googleも対策を打ち出した。2023年末に発表された同社の生成AIツール「Gemini」は、Googleの検索エンジン結果ページ(SERP)の上部に埋め込まれている。GoogleとAlphabetの最高経営責任者(CEO)であるSundar Pichai氏は米国時間12月11日のブログ投稿で、「当社の『AIによる概要』は現在、10億人のユーザーにリーチしている。全く新しいタイプの質問をすることが可能になるため、急速に、これまでで最も人気のある当社の検索機能の1つになりつつある」と報告した。

 しかし、筆者が過去の記事で実際にテストしながら解説したように、GoogleのAIはコーディングだけでなく、自身の能力に対する認識に関しても、かなりの問題があった。

 だが、先ほど紹介したブログ記事で、Pichai氏は「2023年12月に『Gemini 1.0』をリリースして以来、何百万人もの開発者が『Google AI Studio』と『Vertex AI』を通して、Geminiで開発を行ってきた」と主張している。

 その主張にうそはないはずだ。おそらく、GoogleのAIは特定の開発タスクには適しているが、そのほかのタスクには適していないのだろう。Googleは主に「Python」を使用するので、それらの開発者のほとんどはPython関連のプロジェクトに取り組んでいたに違いない。

 言い換えると、改善の余地があったということだ。改善が施された可能性は十分にある。Googleは11日、開発者関連の多数の改善点とともに「Gemini 2.0」を発表した。

 Gemini 2.0は、Google DeepMindのCEOであるDemis Hassabis氏と最高技術責任者(CTO)のKoray Kavukcuoglu氏のブログ投稿で発表された。一番上の見出しには、Gemini 2.0は「エージェント時代に向けた新しいAIモデル」であると書かれている。

 エージェントの部分については後述する。先にGemini 2.0モデルについて解説する必要があるからだ。厳密に言えば、Gemini 2.0は複数のモデルで構成されている。11日に発表されたのは、「Gemini 2.0 Flash」の試験運用版だ。Googleはこれについて、「最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデル」と述べている。

 少し説明が必要だろう。

 「Gemini Flash」モデルはチャットボットではなく、チャットボットやほかの多くのアプリケーションを支えている。基本的に、Flashという名称は、このモデルが開発者向けであることを意味している。

 今回の発表でも、スピードが重要な要素となっていた。Hassabis氏とKavukcuoglu氏によると、Gemini 2.0 Flashの速度は「Gemini 1.5 Flash」の2倍だという。

 Gemini Flashの過去のバージョンは、画像や動画、音声などのマルチモーダル入力をサポートしていた。Gemini 2.0 Flashは、「ネイティブ生成画像やテキスト、操作可能なテキスト読み上げ(TTS)による多言語音声」などのマルチモーダル出力をサポートする。「Google検索やコード実行、サードパーティーのユーザー定義関数などのツールをネイティブに呼び出すこともできる」

 ちなみに、操作可能な音声合成とは、音声のカスタマイズ(例えば、男性と女性を選択可能)、口調(フォーマル、フレンドリーなど)、話し方の速度とリズム、場合によっては言語も指定できるということだ。

 開発者は今すぐGemini 2.0 Flashを使用できる。Gemini 2.0 Flashは、Google AI StudioとVertex AIの「Google API」を使用してアクセス可能な試験運用版モデルという形で提供される。マルチモーダル入力とテキスト出力はすべての開発者が利用可能だが、音声合成と画像生成機能を利用できるのは、Googleの早期アクセスパートナーだけだ。

 開発者以外のユーザーも、デスクトップ版とモバイル版のGemini AIアシスタントを通して、Gemini 2.0を試すことができる。「チャットに最適化」された2.0 Flashの試験運用版はモデルのドロップダウンメニューから選択可能で、「ユーザーはさらに便利なGeminiアシスタントを体験できる」。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
新型コロナワクチンの接種時期、年齢と居住地から予測 JX通信社のアプリに新機能
ロボット・AI
2021-02-16 13:31
ベーシック、日程調整ツール「bookrun」をオープンベータで提供
IT関連
2023-04-07 20:42
国内製造大手の現場で採用広がるクラウドやAI–マイクロソフト顧客の事例
IT関連
2022-03-17 15:13
企業の3大課題–変革、サプライチェーン、サステナビリティーに応えるSAP
IT関連
2022-05-13 06:25
日本IBM、日本企業での採用が進むTBMを解説–「Apptio」導入の広がりが背景に
IT関連
2025-02-22 13:44
DeepL、「DeepL Pro」を25の国と地域で新たに提供
IT関連
2023-12-23 09:11
「AIで勤怠監視」 自動車教習への導入始まる
IT関連
2021-07-20 17:47
Android 12 Betaに「表情で操作」機能 目線や口の動きがスクロールや選択に
企業・業界動向
2021-08-18 13:16
中日新聞、個人情報14万件漏えいか 委託先のサーバに不正アクセス
セキュリティ
2021-06-26 15:46
ロンドンの電動キックスクーター実験にDott、Lime、Tierの3社が選ばれる
モビリティ
2021-05-19 13:14
切っても茶色くならないリンゴの品種育成を加速、リンゴ果肉の変色に関わる染色体領域を特定
IT関連
2022-01-25 13:04
オンラインギフトサービスのギフトパッドが2.68億円を調達、開発体制・地方創生事業を強化
ネットサービス
2021-01-14 11:01
世の中全般よりも遅れている?–コンタクトセンター基盤のベンダー座談会(後編)
IT関連
2021-02-03 20:40
日清製粉グループ、請求書管理クラウドの導入でガバナンスを向上
IT関連
2021-03-31 19:16