グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール

今回は「グーグル「VLOGGER」の可能性–画像からリアルな動画アバターを生成するAIツール」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)コミュニティーは、偽の動画を作成するのが非常に得意になった(たとえば、2月に発表されたOpenAIの「Sora」は、滑らかな架空の空撮動画とともに公開された)。そのため、理知的かつ現実的な疑問を禁じ得ない。こうした動画をどうすべきなのだろうか。

 Googleの研究者であるEnric Corona氏と同僚らが先週、この疑問に答えている。同社の「VLOGGER」ツールを使用して制御すればいいのだという。VLOGGERは、話をする人物の高解像度動画を1枚の写真から生成することができる。さらに重要なのは、動画を音声サンプルに基づいてアニメーション化できることだ。言い換えると、ある人物の制御可能な肖像、すなわち高忠実度の「アバター」として、動画をアニメーション化することができる。

 VLOGGERにより、あらゆる種類の創作が可能になるかもしれない。Corona氏のチームは、最も単純なレベルでは、ヘルプデスクのアバターに大きな影響を与える可能性があると示唆している。リアルに合成された人間が話す動画は「共感を育む」ことができるからだという。同チームは、この技術が「オンラインコミュニケーション、教育、パーソナライズされたバーチャルアシスタントの強化など、全く新しいユースケースを実現する」可能性があるとしている。

 VLOGGERは、本物そっくりの画像に実際の人物が絶対にしない言動をさせるディープフェイクの新境地を開拓してしまうおそれもある。Corona氏のチームは、VLOGGERの社会的影響についての考察を補足資料で提示する意向だ。しかし、その資料は同プロジェクトの「GitHub」ページでは公開されていない。米ZDNETはその補足資料についてCorona氏に問い合わせたが、本稿執筆時点で回答は得られなかった。

 公式論文「VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis」で説明されているように、Corona氏のチームの目標は最先端のアバターの不正確さを克服することだ。「人間のリアルな動画の生成はやはり複雑で、大量のアーティファクトを発生する」とCorona氏のチームは記している。

 同チームによると、既存の動画アバターは身体と手を切り取って、顔だけを表示することが多いという。VLOGGERは、胴全体を手の動きとともに表示することができる。他のツールは通常、顔の表情やポーズの種類が限られており、基本的な口の動きを合わせるだけだ。VLOGGERは、「顔と上半身の動き、(中略)非常に多様な顔の表情やジェスチャーが特徴の高解像度動画」を生成でき、「音声入力に基づいて話したり動いたりする人間を生成する初のアプローチ」とされている。

 研究チームは次のように説明した。「自動化とリアルな動きこそが、この研究で目指しているものだ。VLOGGERは擬人化された会話エージェントへのマルチモーダルインターフェースであり、音声とアニメーションによる視覚表現の機能を備え、複雑な顔の表情やより高度な身体の動きを特徴として、人間のユーザーとの自然な会話をサポートすることを目的としている」

 VLOGGERは、ディープラーニングにおける最近の複数のトレンドを組み合わせている。

 マルチモダリティーは、テキストと音声、画像と動画など、AIツールが取り込んで合成できる多数のモードを統合することだ。

 OpenAIの「GPT-4」などの大規模言語モデルは、自然言語を入力として使用し、テキストの段落、歌、画像の作成など、さまざまな種類のアクションを駆動することができる。

 研究者らは近年、「拡散」を改良することで、実物そっくりの画像や動画を作成する方法も発見した。拡散という用語は分子物理学に由来し、特定の領域に高濃度で存在している物質の粒子が、温度が上昇するにつれて、外へ広がっていくことを指す。同様に、デジタル情報のビットも、デジタルノイズによって一貫性がなくなるほど、「拡散する」とみなすことができる。

 AIの拡散は、画像にノイズを加えて元の画像を再構築することで、ニューラルネットワークを訓練し、画像の構築に用いられたルールを見つけ出せるようにする。拡散は、Stability AIの「Stable Diffusion」やOpenAIの「DALL·E」の印象的な画像生成プロセスの根幹を成す技術だ。OpenAIがSoraの滑らかな動画を作成するために使っている技術でもある。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
副業の約8割がリモート前提に―副業マッチングのシューマツワーカーが「副業系サービスカオスマップ 2022年版」公開
IT関連
2022-02-04 16:13
日経平均急落、バリュー株売られる–金融相場から業績相場への移行期と判断
IT関連
2021-03-25 13:06
米国株の「逆指値」が可能に–「逆指値・成行売り注文」を活用、守りながら攻める
IT関連
2021-04-13 03:28
大正大学がバーチャルキャンパス開設 狙いは受験生との交流 「キズナアイ」も“学長”に就任
企業・業界動向
2021-07-08 22:15
Facebookの監督委員会はすでに「少し不満を感じている」、トランプ氏のアカウント停止については判断を保留
ネットサービス
2021-03-24 05:57
貨物船にコンピュータービジョンを後付けして衝突事故を防ぐOrca AIがシリーズAで約14億円調達
人工知能・AI
2021-04-23 05:03
「ドラクエ12」は「ダークな感じ、大人向け」 コマンドバトルも一新
くらテク
2021-05-28 22:48
WEDとデータ・ワン、レシート情報を用いたデジタル広告で消費者に新たな購買体験を
IT関連
2022-07-30 06:34
TikTokがライバルに負けじと新たな表現を生み出す別動画を自分の動画の背景にできる機能など公開
ネットサービス
2021-05-14 19:33
IDが統一的に管理されていないことの問題点
IT関連
2021-04-02 16:51
重要なのはビジネスの「復元力」–Splunkが予測する2023年のデータテクノロジー
IT関連
2022-12-17 07:18
デジタル庁が新たに民間人材を募集 幹部クラスを中心に10人、6月24日まで公募
キャリア・しごと
2021-06-05 04:13
コロナ禍、就活生“明暗” デジタル人材は引く手あまた
IT関連
2021-06-02 01:30
ヤフー、Androidアプリに「スマホクーラー」機能を追加 夏場の高温対策に
くらテク
2021-07-17 03:05