グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは

今回は「グーグルの次世代AIモデル「Gemini 2.0」–エージェント時代を見据えた機能強化とは」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Googleは昔からずっとスピードにこだわってきた。検索の応答時間であれ、製品の市場投入時間であれ、Googleは常に速さを追求してきた。このアプローチはおおむね同社に利益をもたらしている。より包括的な検索結果をより迅速に返すことで、Googleは市場のトップに上り詰めた。

 しかし、製品の迅速なリリースが原因で、パブリックベータ版、製品の失敗や終了を繰り返してきた長い歴史もある。Googleの過去の失敗をすべて列挙した「Killed by Google」というウェブサイトさえ存在する。失敗に終わった製品の数は驚くほど多いが、「Gmail」や「AdSense」などの成功例もある。これらの製品は、同社が検索をはるかに越えて急成長するのに寄与した。

 したがって、GoogleがAI革命に取り残されたように思えたこの約1年間、同社の経営陣が大きないら立ちを感じていたであろうことは想像に難くない。Googleは何年もAIテクノロジーに投資してきたが、「ChatGPT」が彗星(すいせい)のごとく現れ、極めて短期間のうちにチャットボット市場を支配した。

 もちろん、Googleも対策を打ち出した。2023年末に発表された同社の生成AIツール「Gemini」は、Googleの検索エンジン結果ページ(SERP)の上部に埋め込まれている。GoogleとAlphabetの最高経営責任者(CEO)であるSundar Pichai氏は米国時間12月11日のブログ投稿で、「当社の『AIによる概要』は現在、10億人のユーザーにリーチしている。全く新しいタイプの質問をすることが可能になるため、急速に、これまでで最も人気のある当社の検索機能の1つになりつつある」と報告した。

 しかし、筆者が過去の記事で実際にテストしながら解説したように、GoogleのAIはコーディングだけでなく、自身の能力に対する認識に関しても、かなりの問題があった。

 だが、先ほど紹介したブログ記事で、Pichai氏は「2023年12月に『Gemini 1.0』をリリースして以来、何百万人もの開発者が『Google AI Studio』と『Vertex AI』を通して、Geminiで開発を行ってきた」と主張している。

 その主張にうそはないはずだ。おそらく、GoogleのAIは特定の開発タスクには適しているが、そのほかのタスクには適していないのだろう。Googleは主に「Python」を使用するので、それらの開発者のほとんどはPython関連のプロジェクトに取り組んでいたに違いない。

 言い換えると、改善の余地があったということだ。改善が施された可能性は十分にある。Googleは11日、開発者関連の多数の改善点とともに「Gemini 2.0」を発表した。

 Gemini 2.0は、Google DeepMindのCEOであるDemis Hassabis氏と最高技術責任者(CTO)のKoray Kavukcuoglu氏のブログ投稿で発表された。一番上の見出しには、Gemini 2.0は「エージェント時代に向けた新しいAIモデル」であると書かれている。

 エージェントの部分については後述する。先にGemini 2.0モデルについて解説する必要があるからだ。厳密に言えば、Gemini 2.0は複数のモデルで構成されている。11日に発表されたのは、「Gemini 2.0 Flash」の試験運用版だ。Googleはこれについて、「最先端のテクノロジーで低レイテンシーと性能強化を大規模に実現した主要モデル」と述べている。

 少し説明が必要だろう。

 「Gemini Flash」モデルはチャットボットではなく、チャットボットやほかの多くのアプリケーションを支えている。基本的に、Flashという名称は、このモデルが開発者向けであることを意味している。

 今回の発表でも、スピードが重要な要素となっていた。Hassabis氏とKavukcuoglu氏によると、Gemini 2.0 Flashの速度は「Gemini 1.5 Flash」の2倍だという。

 Gemini Flashの過去のバージョンは、画像や動画、音声などのマルチモーダル入力をサポートしていた。Gemini 2.0 Flashは、「ネイティブ生成画像やテキスト、操作可能なテキスト読み上げ(TTS)による多言語音声」などのマルチモーダル出力をサポートする。「Google検索やコード実行、サードパーティーのユーザー定義関数などのツールをネイティブに呼び出すこともできる」

 ちなみに、操作可能な音声合成とは、音声のカスタマイズ(例えば、男性と女性を選択可能)、口調(フォーマル、フレンドリーなど)、話し方の速度とリズム、場合によっては言語も指定できるということだ。

 開発者は今すぐGemini 2.0 Flashを使用できる。Gemini 2.0 Flashは、Google AI StudioとVertex AIの「Google API」を使用してアクセス可能な試験運用版モデルという形で提供される。マルチモーダル入力とテキスト出力はすべての開発者が利用可能だが、音声合成と画像生成機能を利用できるのは、Googleの早期アクセスパートナーだけだ。

 開発者以外のユーザーも、デスクトップ版とモバイル版のGemini AIアシスタントを通して、Gemini 2.0を試すことができる。「チャットに最適化」された2.0 Flashの試験運用版はモデルのドロップダウンメニューから選択可能で、「ユーザーはさらに便利なGeminiアシスタントを体験できる」。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
DeepMindのAlphaFold2に匹敵するより高速で自由に利用できるタンパク質フォールディングモデルを研究者が開発
バイオテック
2021-07-17 06:05
マクニカ、ロート製薬の部門横断DXプロジェクトを伴走支援
IT関連
2024-10-04 05:08
関西学院大学と日本IBMが授業と同内容の「AI活用人材育成プログラム VL版」を企業・自治体・大学に提供開始
EdTech
2021-04-29 17:13
レッドハット、「OpenShift Lightspeed」の開発者プレビュー版を公開
IT関連
2024-08-08 14:51
凸版印刷、製造DX支援ソリューションにRFID活用の生産実績管理機能を追加
IT関連
2022-03-08 10:35
ソフトウェア部品表の整備が急務–シノプシスが脆弱性検査動向を発表
IT関連
2023-01-26 21:50
Google Cloud、データクラウドの新サービスを発表–「BigLake」をプレビュー提供
IT関連
2022-04-08 14:25
つぎはぎされた「フランケンクラウド」モデルは最大のセキュリティーリスクなのか
セキュリティ
2021-03-24 15:36
新入社員は「配属ガチャ」でなく全員「顧客対応」から始めてはどうか
IT関連
2024-05-31 15:26
職業としてのセキュリティ–運用できないセキュリティ製品が売れた理由
IT関連
2023-02-22 01:11
子供に照準を合わせたフィンテック「Greenlight」がシリーズDで283億円調達、評価額は約2倍の2500億円に
フィンテック
2021-04-29 04:28
変わりつつあるソフトウェア開発と必要なスキル–シスコのCIOに聞く
IT関連
2023-02-04 18:24
フェンシング剣の軌跡、AIと4Kカメラで捕まえた “ライトセーバー”みたいな可視化技術、約5年間の開発秘話 (1/3 ページ)
くわしく
2021-08-15 17:12
「倫理的なAI」に対する企業の意識はどれほどか
IT関連
2021-06-08 05:55