富士通とカーネギーメロン大学、単眼カメラの2次元画像から物体を3次元化する技術
今回は「富士通とカーネギーメロン大学、単眼カメラの2次元画像から物体を3次元化する技術」についてご紹介します。
関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
富士通と米国のカーネギーメロン大学は、固定設置の1台の単眼カメラから得られる画像に映る物体を、AIによって3次元に変換しデジタル化し、人や物体の3次元形状や位置を高精度かつ動的に再構築する技術を開発した。
開発した技術を活用することで、例えば交差点など人や車が密集する場面を撮影した画像を、匿名化した上で3次元上へ動的に復元し、監視カメラでは捉えきれなかった交通事故の原因などについて可視化できる。
この技術は、深層学習によって人や物体の形状を学習したAIを用いて、カメラに映る2次元の各物体の3次元形状を推定可能にする「3次元形状推定技術」と、建物や地形などを含む3次元モデル上で人や物体を高精度に位置推定し復元する「3次元プロジェクション技術」の2つのコア技術によって構成されている。
3次元形状推定技術は、さまざまな角度から撮影した市街の複数の画像を、画像に映り込む建物や人などの物体の種別を判別させた上で深層学習を用いて学習させたモデルを活用する。
これにより、単眼カメラで撮影した1枚の市街の画像からでも、3次元空間上のVoxelの集合体として、建物や人といったカテゴリも含めて表現することが可能になる。また、事前の機械学習によって、建物の裏側などの画像では隠れて映っていない部分についても、正確な3次元形状の推定が可能になる。
Voxelは、体積(Volume)とピクセル(Pixel)を組み合わせた用語。ピクセルが2次元画像の単一画素を表すのと同様に、Voxelは3次元空間上で単一点を表示するための立体表現方法として使う。
3次元プロジェクション技術は、人や車の動きをより現実世界に即した形で復元可能にするほか、物体の特定の部分が障害物によって隠されている場合でも正確な位置推定が可能になる。
位置推定では、3次元形状推定技術の出力結果に基づいて3次元化されたデジタルツイン上で、既に学習済みの社会人文科学的な人間の行動分析のノウハウを組み込む。これにより例えば人が物体をすり抜けるなど、現実世界では起こり得ない人間の動きを除外しつつ、進行方向や速度情報などを加味して3次元上に高精度に配置可能になる。
両者は2月22日から、カーネギーメロン大学周辺の交差点を撮影した画像データなどで今回開発した技術について実証実験を開始している。
実証では、大学内などに単眼カメラを設置し、周辺の交差点を撮影した画像データに映る物体を認識させる。さらに人の顔や車のナンバープレートなどを匿名化してプライバシーを保護した上で、ソーシャルデジタルツイン上で再現する。
さらに大学周辺の人の往来や交通状況などを分析し、分析結果から、建物や一時的な人ごみにより発生する死角などの潜在的な事故の誘発要素を発見する。さらに発見された可能性に基づいて事故防止策の立案を行い、開発技術の有効性を検証する。
両者は、2022年2月より、人、モノ、経済、社会の間の複雑な相互作用を3次元上に動的に再現するソーシャルデジタルツインの共同研究を開始している。そして複数角度から撮影された動画を高速で高精細に画像生成する高速3次元シーン復元技術の開発に取り組んできた。
しかし、共同研究を進める中で、撮影画像を3次元に動的に復元するためには、映像の解析精度が技術的に不十分な部分があった。さらに3次元上で正確に物体の位置や形状を再現するために複数のカメラが必要となり、作業負荷、コストなどに課題が残り社会実装の障壁となっていたという。