グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール

今回は「グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)コミュニティーは、偽の動画を作成するのが非常に得意になった(たとえば、2月に発表されたOpenAIの「Sora」は、滑らかな架空の空撮動画とともに公開された)。そのため、理知的かつ現実的な疑問を禁じ得ない。こうした動画をどうすべきなのだろうか。

 Googleの研究者であるEnric Corona氏と同僚らが先週、この疑問に答えている。同社の「VLOGGER」ツールを使用して制御すればいいのだという。VLOGGERは、話をする人物の高解像度動画を1枚の写真から生成することができる。さらに重要なのは、動画を音声サンプルに基づいてアニメーション化できることだ。言い換えると、ある人物の制御可能な肖像、すなわち高忠実度の「アバター」として、動画をアニメーション化することができる。

 VLOGGERにより、あらゆる種類の創作が可能になるかもしれない。Corona氏のチームは、最も単純なレベルでは、ヘルプデスクのアバターに大きな影響を与える可能性があると示唆している。リアルに合成された人間が話す動画は「共感を育む」ことができるからだという。同チームは、この技術が「オンラインコミュニケーション、教育、パーソナライズされたバーチャルアシスタントの強化など、全く新しいユースケースを実現する」可能性があるとしている。

 VLOGGERは、本物そっくりの画像に実際の人物が絶対にしない言動をさせるディープフェイクの新境地を開拓してしまうおそれもある。Corona氏のチームは、VLOGGERの社会的影響についての考察を補足資料で提示する意向だ。しかし、その資料は同プロジェクトの「GitHub」ページでは公開されていない。米ZDNETはその補足資料についてCorona氏に問い合わせたが、本稿執筆時点で回答は得られなかった。

 公式論文「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」で説明されているように、Corona氏のチームの目標は最先端のアバターの不正確さを克服することだ。「人間のリアルな動画の生成はやはり複雑で、大量のアーティファクトを発生する」とCorona氏のチームは記している。

 同チームによると、既存の動画アバターは身体と手を切り取って、顔だけを表示することが多いという。VLOGGERは、胴全体を手の動きとともに表示することができる。他のツールは通常、顔の表情やポーズの種類が限られており、基本的な口の動きを合わせるだけだ。VLOGGERは、「顔と上半身の動き、(中略)非常に多様な顔の表情やジェスチャーが特徴の高解像度動画」を生成でき、「音声入力に基づいて話したり動いたりする人間を生成する初のアプローチ」とされている。

 研究チームは次のように説明した。「自動化とリアルな動きこそが、この研究で目指しているものだ。VLOGGERは擬人化された会話エージェントへのマルチモーダルインターフェースであり、音声とアニメーションによる視覚表現の機能を備え、複雑な顔の表情やより高度な身体の動きを特徴として、人間のユーザーとの自然な会話をサポートすることを目的としている」

 VLOGGERは、ディープラーニングにおける最近の複数のトレンドを組み合わせている。

 マルチモダリティーは、テキストと音声、画像と動画など、AIツールが取り込んで合成できる多数のモードを統合することだ。

 OpenAIの「GPT-4」などの大規模言語モデルは、自然言語を入力として使用し、テキストの段落、歌、画像の作成など、さまざまな種類のアクションを駆動することができる。

 研究者らは近年、「拡散」を改良することで、実物そっくりの画像や動画を作成する方法も発見した。拡散という用語は分子物理学に由来し、特定の領域に高濃度で存在している物質の粒子が、温度が上昇するにつれて、外へ広がっていくことを指す。同様に、デジタル情報のビットも、デジタルノイズによって一貫性がなくなるほど、「拡散する」とみなすことができる。

 AIの拡散は、画像にノイズを加えて元の画像を再構築することで、ニューラルネットワークを訓練し、画像の構築に用いられたルールを見つけ出せるようにする。拡散は、Stability AIの「Stable Diffusion」やOpenAIの「DALL·E」の印象的な画像生成プロセスの根幹を成す技術だ。OpenAIがSoraの滑らかな動画を作成するために使っている技術でもある。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
電子メールが今後もなくならない理由–チャット台頭でも使うメリットを考える
IT関連
2024-05-15 08:38
第1回:なぜ今、改めてERPなのか
IT関連
2023-02-16 00:47
「Ponta経済圏」でかなえる、オンラインとリアルを横断した広告効果測定
IT関連
2023-05-24 06:32
太陽生命とNTT Com、生成AIやAIアバターを活用した生命保険募集で実証実験
IT関連
2024-05-02 12:55
TDCソフト、UI設計支援の生成AIアプリを無償公開
IT関連
2024-08-15 20:13
資生堂、従業員エクスペリエンス管理ツールをグローバル全域で導入
IT関連
2022-06-04 18:10
Adobe、映像制作コラボサービス「Frame.io」買収 Creative Cloudに統合へ
企業・業界動向
2021-08-21 20:14
グーグル、自己回帰による超リアルな画像生成モデル「Parti」を発表
IT関連
2022-06-25 22:25
【コラム】深層強化学習は私たちが知る製造業を変革する
人工知能・AI
2021-06-30 00:53
Deno、Node.js、Cloudflare Workersなど、非Webブラウザ系JavaScriptランタイムのコード互換を目指す「Web-interoperable Runtimes Community Group」(WinterCG)が発足
Cloudflare
2022-05-20 04:36
グーグルがインドのハイパーローカル配達サービスDunzoを41億円の資金調達ラウンドで支援
ネットサービス
2021-01-22 04:28
JAMスタックのNetlify、Denoを採用したサーバレス環境「Netlify Edge Functions」ベータ公開。Deno Deployの分散エッジでNext.js/Nuxt/SvelteKit/Remixなど実行
Deno
2022-04-21 03:09
マウスコンピューター顧客のメアド流出 外部の製品レビューツールに不正アクセス
セキュリティ
2021-07-08 07:50
Chromeに実装された疑似クラス「:has()」がjQueryの「:has()」に悪影響、一定の条件下でWebサイトが壊れる可能性
HTML/CSS
2022-09-21 01:44