グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール

今回は「グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)コミュニティーは、偽の動画を作成するのが非常に得意になった(たとえば、2月に発表されたOpenAIの「Sora」は、滑らかな架空の空撮動画とともに公開された)。そのため、理知的かつ現実的な疑問を禁じ得ない。こうした動画をどうすべきなのだろうか。

 Googleの研究者であるEnric Corona氏と同僚らが先週、この疑問に答えている。同社の「VLOGGER」ツールを使用して制御すればいいのだという。VLOGGERは、話をする人物の高解像度動画を1枚の写真から生成することができる。さらに重要なのは、動画を音声サンプルに基づいてアニメーション化できることだ。言い換えると、ある人物の制御可能な肖像、すなわち高忠実度の「アバター」として、動画をアニメーション化することができる。

 VLOGGERにより、あらゆる種類の創作が可能になるかもしれない。Corona氏のチームは、最も単純なレベルでは、ヘルプデスクのアバターに大きな影響を与える可能性があると示唆している。リアルに合成された人間が話す動画は「共感を育む」ことができるからだという。同チームは、この技術が「オンラインコミュニケーション、教育、パーソナライズされたバーチャルアシスタントの強化など、全く新しいユースケースを実現する」可能性があるとしている。

 VLOGGERは、本物そっくりの画像に実際の人物が絶対にしない言動をさせるディープフェイクの新境地を開拓してしまうおそれもある。Corona氏のチームは、VLOGGERの社会的影響についての考察を補足資料で提示する意向だ。しかし、その資料は同プロジェクトの「GitHub」ページでは公開されていない。米ZDNETはその補足資料についてCorona氏に問い合わせたが、本稿執筆時点で回答は得られなかった。

 公式論文「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」で説明されているように、Corona氏のチームの目標は最先端のアバターの不正確さを克服することだ。「人間のリアルな動画の生成はやはり複雑で、大量のアーティファクトを発生する」とCorona氏のチームは記している。

 同チームによると、既存の動画アバターは身体と手を切り取って、顔だけを表示することが多いという。VLOGGERは、胴全体を手の動きとともに表示することができる。他のツールは通常、顔の表情やポーズの種類が限られており、基本的な口の動きを合わせるだけだ。VLOGGERは、「顔と上半身の動き、(中略)非常に多様な顔の表情やジェスチャーが特徴の高解像度動画」を生成でき、「音声入力に基づいて話したり動いたりする人間を生成する初のアプローチ」とされている。

 研究チームは次のように説明した。「自動化とリアルな動きこそが、この研究で目指しているものだ。VLOGGERは擬人化された会話エージェントへのマルチモーダルインターフェースであり、音声とアニメーションによる視覚表現の機能を備え、複雑な顔の表情やより高度な身体の動きを特徴として、人間のユーザーとの自然な会話をサポートすることを目的としている」

 VLOGGERは、ディープラーニングにおける最近の複数のトレンドを組み合わせている。

 マルチモダリティーは、テキストと音声、画像と動画など、AIツールが取り込んで合成できる多数のモードを統合することだ。

 OpenAIの「GPT-4」などの大規模言語モデルは、自然言語を入力として使用し、テキストの段落、歌、画像の作成など、さまざまな種類のアクションを駆動することができる。

 研究者らは近年、「拡散」を改良することで、実物そっくりの画像や動画を作成する方法も発見した。拡散という用語は分子物理学に由来し、特定の領域に高濃度で存在している物質の粒子が、温度が上昇するにつれて、外へ広がっていくことを指す。同様に、デジタル情報のビットも、デジタルノイズによって一貫性がなくなるほど、「拡散する」とみなすことができる。

 AIの拡散は、画像にノイズを加えて元の画像を再構築することで、ニューラルネットワークを訓練し、画像の構築に用いられたルールを見つけ出せるようにする。拡散は、Stability AIの「Stable Diffusion」やOpenAIの「DALL·E」の印象的な画像生成プロセスの根幹を成す技術だ。OpenAIがSoraの滑らかな動画を作成するために使っている技術でもある。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ITチャネルパートナーに販売促進プラットフォームを提供するZomentumが事業拡大に向け13.8億円調達
ソフトウェア
2021-02-18 12:49
“6年ぶりに登場する新Windowsイベント”を楽しむために知っておきたい、これだけのこと (1/3 ページ)
くわしく
2021-06-25 05:29
マイクロソフト、医療クラウドのセキュリティリファレンス公開
IT関連
2021-07-27 00:12
Databricks、AI特化型のデータ基盤を提供するEinblickを買収
IT関連
2024-02-03 12:34
マイクロソフト、CRMやERPと統合したAIサービス「Dynamics 365 Copilot」発表。会議のサマリ作成、社内ナレッジベースを基に顧客への回答作成など
CRM
2023-03-08 23:53
ダイエットやボディメイクを栄養バランスの取れた食事でサポートする宅食サービス「マッスルデリ」が2.5億円調達
フードテック
2021-07-31 10:22
2年ぶり開催のInterop Tokyo 2021–ShowNetに見るハイブリッドの挑戦
IT関連
2021-04-16 02:21
任天堂「ゼルダの伝説 BoW」続編は2022年発売、ゼルダのゲーム&ウォッチも登場、新作「メトロイド」も
ゲーム / eSports
2021-06-17 04:56
多くの企業のクラウド化を実現してきたCIerがモダンマネジメント/フルクラウド化を円滑に進めるためのヒントを公開 :5G搭載!“ARM版Windows 10”特集 第二弾
PR
2021-06-30 20:32
四国大学、全教職員約380人に「LINE WORKS」を導入
IT関連
2022-06-07 19:47
オラクル、「Java 19」を公開–「JavaOne」も復活へ
IT関連
2022-09-22 23:29
アプトポッド、エッジコンピューター「EDGEPLANT」発表–ハードウェア事業に参入
IT関連
2021-03-09 19:40
ヤマダウェブ、Apple製品をApple Pay購入でポイント10%付与実施中
IT関連
2021-08-14 11:39
パイオニアが「モノ×コト」で切り開く「未来の移動体験」
IT関連
2023-12-15 17:23