Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表

今回は「Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)の進歩に伴い、かつてないほど多くのロボットやオートメーションを活用する未来が期待される。家の中をうまく移動するロボット掃除機や、動物のペットを楽しませてくれるロボットペット、週末の作業を代行してくれるロボット草刈り機など、それらは既に私たちの身の回りに存在する。私たちは、「宇宙家族ジェットソン」の世界を実際に生きる日々に少しずつ近づいているようだ。しかし、あれほど賢く見えるロボットにも限界というものがある。

 Google DeepMindは、ロボット制御用のVLA(ビジョンランゲージアクション)モデル「RT-2」を発表した。ロボティクスの能力を実質的に数レベル引き上げるものだ。このシステムは、「ChatGPT」や「Bing」のトレーニングを支える大規模言語モデル(LLM)とほぼ同様に、インターネットからのテキストデータと画像でトレーニングされている。

 私たちの家庭にあるロボットは、プログラムされた単純なタスクを実行できる。例えば、床を掃除するというタスクの場合、左側のセンサーが壁を検出すると、それを避けて移動しようとする。しかし、従来のロボット制御システムは、新しい状況や予期せぬ変化に対処するようにはプログラムされていない。また通常、同時に複数のタスクを実行できない。

 RT-2は、時間が経つにつれて新しい状況に適応し、ウェブやロボティクスデータといった複数のデータソースから学習して言語と視覚的入力の両方を理解し、これまで遭遇したことのないタスクや実行するようにトレーニングされていないタスクを実行するように設計されている。

 従来のロボットの場合、球を拾うようにトレーニングすると、球は拾えるが立方体の拾い上げには苦戦する。RT-2には、球を拾うようにトレーニングされたロボットが、これまで見たことのない立方体やその他の形状の玩具を拾うために、自らの能力の限界を調整する方法を見出すことができるような、柔軟なアプローチが採用されている。

 従来のロボットは、物体を物理的に認識してそれを拾い上げる方法を学習するために、数十億ものデータポイントを使った時間のかかる実世界のトレーニングが必要であるのに対し、RT-2は、大量のデータでトレーニングされており、その知識を行動に転換して、これまで経験したことのないタスクを実行できる。

 「情報を行動に転換するRT-2の能力は、新しい状況や環境に、より迅速に適応するロボットが期待できることを示している」と、Google DeepMindのロボティクス責任者を務めるVincent Vanhoucke氏は述べた。「6000を超えるロボット試行実験でRT-2モデルをテストしたところ、RT-2が、トレーニングデータに含まれるタスクまたは『既知』のタスクに対して、当社の前モデルである『RT-1』と同等に機能することが分かった。その上で、初見の新しいシナリオに対する性能はほぼ2倍となっており、RT-1が32%であるのに対して62%だった」(同氏)

 DeepMindチームは、2つの既存モデルである「Pathways Language and Image Model」(PaLI-X)と「Pathways Language Model Embodied(PaLM-E)を、RT-2のトレーニング用に改変した。PaLI-Xは、RT-2による視覚データの処理を支援し、膨大な量の画像と視覚的情報に加えて、その他のオンラインの対応する説明とラベルでトレーニングされている。PaLI-XによってRT-2は、異なる物体を認識し、その周辺シーンを理解してコンテキストを把握し、視覚データを意味のある記述に関連付けることができる。

 PaLM-Eは、RT-2による言語解釈を支援し、RT-2が指示を簡単に理解して、その指示を周辺にあるものや現在行っている動作と関連付けられるようにする。

 DeepMindチームは、これら2つのモデルをRT-2のバックボーンとして動作するように改変する中で、この新しいVLAモデルを構築し、ロボットが言語や視覚データを理解して、それに基づいて必要となる適切な動作を生成できるようにした。

 RT-2自体はロボットではなく、ロボットをこれまで以上に効率的に制御できるモデルだ。RT-2対応のロボットは、視覚データや言語データを使用して、さまざまな複雑さのタスクを実行できる。例えば、文書のラベルを読み取って並べ替え、正しい場所に配置することで、ファイルをアルファベット順に整理できる。

 複雑なタスクにも対応できる。例えば、「この荷物を郵送したいが、切手がない」と言えば、RT-2はまず何をすべきかを特定し、切手を売っている近所の郵便局や商店を探し、荷物を取り、郵送を手配できる。

 「RT-2は、AIの進歩がロボット工学に急速に組み込まれていることを示すだけでなく、より汎用的なロボットに向けた大きな可能性を示している」とVanhoucke氏は語った。

 その「可能性」が、「ターミネーター」よりも「ジェットソンズ」の筋書きに近いものであることを祈ろう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
AWSジャパンと浜松医科大学が連携–医療ビッグデータの活用でスマートヘルスケアの実現へ
IT関連
2024-11-19 08:14
ロサンゼルスが気候変動対策でカーボンアカウンティングを導入
EnviroTech
2021-03-22 19:21
ヨドバシの中の人が語る、開発中のヨドバシAPIが目指す機能、仕組み、そしてセキュリティ(後編)
API
2023-12-04 09:53
IBM、最新のAIモデル「Granite 3.0」でAIのオープンソース化を推進
IT関連
2024-10-24 10:37
第3回:セキュリティに特化したSSEがもたらすもの
IT関連
2022-09-30 07:44
Sansan、契約データベース「Contract One」に「除外ワード検索」「自動更新管理」追加
IT関連
2024-02-28 21:40
New Relic、「New Relic AI Monitoring」提供–AIアプリケーション向けAPM
IT関連
2023-12-08 07:15
カルビー、AI搭載の生産計画立案システムを導入–業務負荷を低減し生産性を向上
IT関連
2022-08-11 12:17
福島銀行、AWSで稼働する新勘定系システムの運用を開始
IT関連
2024-07-19 14:37
センサーや電源などのユニットを組み合わせてIoTデバイスを開発できるハードウェア「PILEz」登場
企業・業界動向
2021-05-29 05:19
「iPhone」「Android」で使える写真編集アプリ8選
IT関連
2022-01-23 19:42
組織の俊敏性を高める開発手法「SAFe」–Scaled Agileが日本市場で事業強化
IT関連
2021-02-18 17:01
JR東、車内販売中止 新幹線や特急「乗る前に購入して」
くらテク
2021-01-16 17:37
iPhone 12 miniとiPhone 12、背面ガラスパネル交換で当日修理可能に
IT関連
2021-02-18 01:25