グーグルのブラウザー版AIエージェント「Project Mariner」とは
今回は「グーグルのブラウザー版AIエージェント「Project Mariner」とは」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
ホリデーシーズンを前に、先行したOpenAIに続く形で、Googleが人工知能(AI)に関する一連の発表を行った。その中心にあるのがエージェントAIだ。この発表に含まれていた待望の生成AIの最新版「Gemini 2.0」は他の先進的なAI製品にも活用されるが、その1つが「Project Mariner」だ。
Project Marinerは、Gemini 2.0に基づき構築された、人間とエージェントのインタラクションの可能性を探求する研究プロトタイプだ。これを用いると、使用中のブラウザーでのタスクの自動化が可能になる。AIエージェントのように、ウェブ上でタスクを任せると、ユーザーの代わりにやってくれる。そう聞くだけだと複雑に思えるかもしれないが、具体的な利用例を聞けば、これがどういう機能なのかよくわかるはずだ。
では、これはどのような仕組みで機能しているのだろうか? Project Marinerは、試験運用版の「Chrome」拡張機能としてウェブブラウザーに常駐し、画像、コード、フォームなど、画面のコンテンツを理解することができる。右側のウィンドウにチャットボットがあり、ユーザーはそこにやってほしいタスクを何でも入力できる、という仕組みだ。
Marinerは入力されたクエリーを理解すると、ユーザーに代わってリアルタイムでウェブサイトを見て回り、タスクの実行に必要なものについて推論を行い、実行の前にユーザーに計画を示す。Googleによると、Project Marinerをベンチマーク「WebVoyager」で評価したところ、単一エージェント設定で83.5%のスコアを達成したという。
Googleのデモ動画では、ユーザーが企業4社の名前が並んだ「Googleスプレッドシート」を開いている。ここから各社の連絡先情報を探すのに、1つ1つ自分で調べるのではなく、拡張機能のMarinerに次のように頼む。「この企業リストを記憶して。次に、各社のウェブサイトを見つけ、私が連絡するのに使える、会社のメールアドレスを調べて。アドレスは私が後で使えるように覚えておいて」
するとMarinerはウェブを見て回りながら、プロンプトにどのように取り組む計画なのかをステップごとに示してくれるので、ユーザーにもMarinerの推論のプロセスが見える。Marinerはバックグラウンドでは動かず、アクティブなタブでのみ機能する。さらにGoogleでは、常に人間の監督下に置くことを推奨している。