Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表

今回は「Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)の進歩に伴い、かつてないほど多くのロボットやオートメーションを活用する未来が期待される。家の中をうまく移動するロボット掃除機や、動物のペットを楽しませてくれるロボットペット、週末の作業を代行してくれるロボット草刈り機など、それらは既に私たちの身の回りに存在する。私たちは、「宇宙家族ジェットソン」の世界を実際に生きる日々に少しずつ近づいているようだ。しかし、あれほど賢く見えるロボットにも限界というものがある。

 Google DeepMindは、ロボット制御用のVLA(ビジョンランゲージアクション)モデル「RT-2」を発表した。ロボティクスの能力を実質的に数レベル引き上げるものだ。このシステムは、「ChatGPT」や「Bing」のトレーニングを支える大規模言語モデル(LLM)とほぼ同様に、インターネットからのテキストデータと画像でトレーニングされている。

 私たちの家庭にあるロボットは、プログラムされた単純なタスクを実行できる。例えば、床を掃除するというタスクの場合、左側のセンサーが壁を検出すると、それを避けて移動しようとする。しかし、従来のロボット制御システムは、新しい状況や予期せぬ変化に対処するようにはプログラムされていない。また通常、同時に複数のタスクを実行できない。

 RT-2は、時間が経つにつれて新しい状況に適応し、ウェブやロボティクスデータといった複数のデータソースから学習して言語と視覚的入力の両方を理解し、これまで遭遇したことのないタスクや実行するようにトレーニングされていないタスクを実行するように設計されている。

 従来のロボットの場合、球を拾うようにトレーニングすると、球は拾えるが立方体の拾い上げには苦戦する。RT-2には、球を拾うようにトレーニングされたロボットが、これまで見たことのない立方体やその他の形状の玩具を拾うために、自らの能力の限界を調整する方法を見出すことができるような、柔軟なアプローチが採用されている。

 従来のロボットは、物体を物理的に認識してそれを拾い上げる方法を学習するために、数十億ものデータポイントを使った時間のかかる実世界のトレーニングが必要であるのに対し、RT-2は、大量のデータでトレーニングされており、その知識を行動に転換して、これまで経験したことのないタスクを実行できる。

 「情報を行動に転換するRT-2の能力は、新しい状況や環境に、より迅速に適応するロボットが期待できることを示している」と、Google DeepMindのロボティクス責任者を務めるVincent Vanhoucke氏は述べた。「6000を超えるロボット試行実験でRT-2モデルをテストしたところ、RT-2が、トレーニングデータに含まれるタスクまたは『既知』のタスクに対して、当社の前モデルである『RT-1』と同等に機能することが分かった。その上で、初見の新しいシナリオに対する性能はほぼ2倍となっており、RT-1が32%であるのに対して62%だった」(同氏)

 DeepMindチームは、2つの既存モデルである「Pathways Language and Image Model」(PaLI-X)と「Pathways Language Model Embodied(PaLM-E)を、RT-2のトレーニング用に改変した。PaLI-Xは、RT-2による視覚データの処理を支援し、膨大な量の画像と視覚的情報に加えて、その他のオンラインの対応する説明とラベルでトレーニングされている。PaLI-XによってRT-2は、異なる物体を認識し、その周辺シーンを理解してコンテキストを把握し、視覚データを意味のある記述に関連付けることができる。

 PaLM-Eは、RT-2による言語解釈を支援し、RT-2が指示を簡単に理解して、その指示を周辺にあるものや現在行っている動作と関連付けられるようにする。

 DeepMindチームは、これら2つのモデルをRT-2のバックボーンとして動作するように改変する中で、この新しいVLAモデルを構築し、ロボットが言語や視覚データを理解して、それに基づいて必要となる適切な動作を生成できるようにした。

 RT-2自体はロボットではなく、ロボットをこれまで以上に効率的に制御できるモデルだ。RT-2対応のロボットは、視覚データや言語データを使用して、さまざまな複雑さのタスクを実行できる。例えば、文書のラベルを読み取って並べ替え、正しい場所に配置することで、ファイルをアルファベット順に整理できる。

 複雑なタスクにも対応できる。例えば、「この荷物を郵送したいが、切手がない」と言えば、RT-2はまず何をすべきかを特定し、切手を売っている近所の郵便局や商店を探し、荷物を取り、郵送を手配できる。

 「RT-2は、AIの進歩がロボット工学に急速に組み込まれていることを示すだけでなく、より汎用的なロボットに向けた大きな可能性を示している」とVanhoucke氏は語った。

 その「可能性」が、「ターミネーター」よりも「ジェットソンズ」の筋書きに近いものであることを祈ろう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Q&Aサイト「Stack Overflow」がオフライン対応を発表。ネットの通じない場所や回線が貧弱な発展途上国などでも参照可能に
StackOverflow
2022-10-24 23:59
YouTubeの動画レコメンドAIは依然として悪行を重ねていることが大規模調査で判明
ネットサービス
2021-07-18 19:15
政府の「ワクチン接種記録システム」、ITベンチャーのミラボが3.85億円で受注 4月本格稼働へ マイナンバーとひもづけ
クラウドユーザー
2021-02-20 17:41
次期iPad Pro 12.9-inch (5th generation) はミニLEDバックライト付きの可能性
IT関連
2021-03-19 14:10
NYダウが最高値、FRBは2023年までゼロ金利示唆–ハト派スタンス変わらず
IT関連
2021-03-18 04:38
ランサムウェアはKubernetesの脅威に–ベリタス調査
IT関連
2022-04-13 12:25
ツイッターがストーリーズ機能「フリート」に縦型全画面広告を試験導入、米国でパイロットテスト開始
ネットサービス
2021-06-03 05:18
freee、請求書発行サービスに納品書機能を追加–インボイス制度対応を強化
IT関連
2023-01-22 08:45
「Slack」に「ChatGPT」導入へ–要約や下書き作成が可能に
IT関連
2023-03-09 08:34
チャットの相手がAIか人間かを見抜くチューリングゲームが公開
IT関連
2023-05-16 00:28
「ChatGPT」はバグ修正も得意–開発者の負担が軽減されるかは不明
IT関連
2023-02-04 19:25
グリーが子会社REALITY中心とする「メタバース」事業参入を発表、グローバルで100億円を投資し数億ユーザーを目指す
ネットサービス
2021-08-07 20:02
AIの普及はローコード/ノーコード開発にどのような影響を与えるのか
IT関連
2024-02-29 20:06
仕事はハイブリッド形態、それともオフィスで?–IT分野では在宅ワークの方が高収入
IT関連
2022-07-08 11:14