Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表

今回は「Google DeepMind、ロボットの能力を引き上げるAIモデル「RT-2」を発表」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)の進歩に伴い、かつてないほど多くのロボットやオートメーションを活用する未来が期待される。家の中をうまく移動するロボット掃除機や、動物のペットを楽しませてくれるロボットペット、週末の作業を代行してくれるロボット草刈り機など、それらは既に私たちの身の回りに存在する。私たちは、「宇宙家族ジェットソン」の世界を実際に生きる日々に少しずつ近づいているようだ。しかし、あれほど賢く見えるロボットにも限界というものがある。

 Google DeepMindは、ロボット制御用のVLA(ビジョンランゲージアクション)モデル「RT-2」を発表した。ロボティクスの能力を実質的に数レベル引き上げるものだ。このシステムは、「ChatGPT」や「Bing」のトレーニングを支える大規模言語モデル(LLM)とほぼ同様に、インターネットからのテキストデータと画像でトレーニングされている。

 私たちの家庭にあるロボットは、プログラムされた単純なタスクを実行できる。例えば、床を掃除するというタスクの場合、左側のセンサーが壁を検出すると、それを避けて移動しようとする。しかし、従来のロボット制御システムは、新しい状況や予期せぬ変化に対処するようにはプログラムされていない。また通常、同時に複数のタスクを実行できない。

 RT-2は、時間が経つにつれて新しい状況に適応し、ウェブやロボティクスデータといった複数のデータソースから学習して言語と視覚的入力の両方を理解し、これまで遭遇したことのないタスクや実行するようにトレーニングされていないタスクを実行するように設計されている。

 従来のロボットの場合、球を拾うようにトレーニングすると、球は拾えるが立方体の拾い上げには苦戦する。RT-2には、球を拾うようにトレーニングされたロボットが、これまで見たことのない立方体やその他の形状の玩具を拾うために、自らの能力の限界を調整する方法を見出すことができるような、柔軟なアプローチが採用されている。

 従来のロボットは、物体を物理的に認識してそれを拾い上げる方法を学習するために、数十億ものデータポイントを使った時間のかかる実世界のトレーニングが必要であるのに対し、RT-2は、大量のデータでトレーニングされており、その知識を行動に転換して、これまで経験したことのないタスクを実行できる。

 「情報を行動に転換するRT-2の能力は、新しい状況や環境に、より迅速に適応するロボットが期待できることを示している」と、Google DeepMindのロボティクス責任者を務めるVincent Vanhoucke氏は述べた。「6000を超えるロボット試行実験でRT-2モデルをテストしたところ、RT-2が、トレーニングデータに含まれるタスクまたは『既知』のタスクに対して、当社の前モデルである『RT-1』と同等に機能することが分かった。その上で、初見の新しいシナリオに対する性能はほぼ2倍となっており、RT-1が32%であるのに対して62%だった」(同氏)

 DeepMindチームは、2つの既存モデルである「Pathways Language and Image Model」(PaLI-X)と「Pathways Language Model Embodied(PaLM-E)を、RT-2のトレーニング用に改変した。PaLI-Xは、RT-2による視覚データの処理を支援し、膨大な量の画像と視覚的情報に加えて、その他のオンラインの対応する説明とラベルでトレーニングされている。PaLI-XによってRT-2は、異なる物体を認識し、その周辺シーンを理解してコンテキストを把握し、視覚データを意味のある記述に関連付けることができる。

 PaLM-Eは、RT-2による言語解釈を支援し、RT-2が指示を簡単に理解して、その指示を周辺にあるものや現在行っている動作と関連付けられるようにする。

 DeepMindチームは、これら2つのモデルをRT-2のバックボーンとして動作するように改変する中で、この新しいVLAモデルを構築し、ロボットが言語や視覚データを理解して、それに基づいて必要となる適切な動作を生成できるようにした。

 RT-2自体はロボットではなく、ロボットをこれまで以上に効率的に制御できるモデルだ。RT-2対応のロボットは、視覚データや言語データを使用して、さまざまな複雑さのタスクを実行できる。例えば、文書のラベルを読み取って並べ替え、正しい場所に配置することで、ファイルをアルファベット順に整理できる。

 複雑なタスクにも対応できる。例えば、「この荷物を郵送したいが、切手がない」と言えば、RT-2はまず何をすべきかを特定し、切手を売っている近所の郵便局や商店を探し、荷物を取り、郵送を手配できる。

 「RT-2は、AIの進歩がロボット工学に急速に組み込まれていることを示すだけでなく、より汎用的なロボットに向けた大きな可能性を示している」とVanhoucke氏は語った。

 その「可能性」が、「ターミネーター」よりも「ジェットソンズ」の筋書きに近いものであることを祈ろう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
デル、「PowerEdge」サーバー17機種を発表–第3世代「Xeon SP」「EPYC」を搭載
IT関連
2021-03-19 20:06
「シン・エヴァ」関係者への脅迫に「強く抗議」 カラー「海外でも通報する」
くらテク
2021-05-15 11:22
HPE、「Ezmeral」ポートフォリオ強化へ–データアナリティクスプラットフォームのAmpool買収
IT関連
2021-07-12 07:36
法令違反で10億円か売上高の5%–注意を払うべき中国「データ3法」の対応策
IT関連
2022-10-19 07:31
スマートリモコンのNatureが7.5億円調達し電気小売事業強化、クックパッド宇野雄氏がデザインアドバイザー就任
Nature Remo
2021-07-15 16:33
勤怠管理システム「AKASHI」が「Slack」と連携–「出勤」と投稿したら自動で打刻
IT関連
2023-03-15 19:04
長寿スタートアップのLongevicaが長期研究に基づくサプリメントを発売予定
バイオテック
2021-04-25 04:52
任天堂子会社NERDが「スーパーマリオ 3Dコレクション」で採用したエミュレーション技術など公表
ゲーム / eSports
2021-03-23 21:26
ドコモと近畿大、ドローンでキャンパス内を自動巡回 実証実験に成功
DX
2021-04-20 18:57
富士通、持続的成長への変革の取り組みを示す–帝人との共創など披露
IT関連
2022-10-06 05:16
大鵬薬品、DX人材発掘・育成サービスを導入–約1600人がeラーニング受講
IT関連
2023-06-01 09:21
IIJ、データセンターの脱炭素化の取り組みと新施策を発表
IT関連
2023-04-26 23:56
マイクロソフト「.NET 7」正式リリース。パフォーマンス改善、Linux対応向上、コンテナ生成、ネイティブコンパイラ搭載など新機能
.NET
2022-11-09 23:02
敷島製パン、既存/人気商品の動画制作で販促力を強化
IT関連
2022-06-26 06:39