パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

今回は「パナソニックHD、階層的な画像認識を実現するマルチモーダル基盤モデルを開発」についてご紹介します。

関連ワード (ビッグデータ等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 パナソニック ホールディングス(パナソニックHD)は11月22日、階層的な画像認識を実現するマルチモーダル基盤モデルを開発したと発表した。これは、大規模言語モデル(LLM)の事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる基盤モデルで、カリフォルニア大学バークレー校と共同開発した。

 今回開発した「HIPIE(Hierarchical Open-vocabulary Universal Image Segmentation)」は、40以上の公開データセットを対象とした評価実験において、2023年11月21日現在の世界最高性能を達成しているという。今後、車載センサーの危険検知やロボットでの操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる場面で、現場でのアノテーションの負担削減が期待される。

 HIPIEは、「オープンボキャブラリー(任意の言語で扱える)」「ユニバーサル(任意の画像を扱える)」「階層的(シーンに含まれる情報を階層的に捉えられる)」という特徴を備えた画期的なセグメンテーションモデル。画像に映ったシーンを詳細に理解することが可能となり、モビリティー、製造、ロボティクスをはじめとする、高度な画像理解が求められる場面での活用が見込まれる。また、昨今需要が高まっている基盤モデルの構築とトレーニングのハードルを下げる技術になることも期待される。

 近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、LLMを応用した研究が注目されている。

 LLMの事前知識を画像に取り込むに当たって、実際は異なる粒度の階層的な言語(例えば、人→顔→鼻/口/目など)が同一の物体領域に存在する場合、基本的には階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきた(人/顔/鼻のどれか一つ、もしくは、「人 顔 鼻」とつなげただけの文字列で学習など)。

 パナソニックHDでは、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目し、異なる粒度の階層的な表現を学習する技術を開発した。これにより、これまで階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を1つのモデルで実現できるようにした。

 セグメンテーションや画像認識において、画像中に人物が写っている場合、通常であれば「人」ラベルが割り当てられる。また、タスクによってはその領域に「顔」や「鼻」といった粒度の異なるラベルが割り当てられる必要がある。

 このように粒度の異なるラベルを同時に学習する場合「person nose」「dog nose」のようにラベル名をつなげて学習させるのが一般的だ。ただし、この方法で学習したAIは、「giraffe nose」(キリンの鼻)のように未知のテキストが現れると途端にうまく扱えなくなる問題があった。

 これに対し、HIPIEではさまざまなスケールを包括することで、所望の画像分割と高度な画像理解を可能にした。これによりモデルの表現能力が格段に向上させ、未知の組み合わせラベルに対応できるようにした。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
東京大学、国内初の量子コンピューターのハードウェアテスト施設を設置
IT関連
2021-06-08 09:20
作品応募数175点、本物の「忍びの地図」など「obniz IoT コンテスト2021」最優秀賞・優秀賞を発表
IoT
2021-06-02 04:49
コードを提案してくれるAIペアプログラマー「GitHub Copilot」、一般提供に
IT関連
2022-06-24 14:04
アップル、自社製品のセキュリティ詳細を約200頁の文書で公開
IT関連
2021-02-19 18:32
マッチングサービス各社が米連邦政府とコロナワクチン促進で協力
アプリ・Web
2021-05-24 17:24
Ridgelinez、ニコンと川崎フロンターレの「画像共有サービス」の企画、開発、運用体制構築を支援
IT関連
2023-07-13 07:38
コスモ石油マーケティング、顧客に適したコンテンツ配信–有料プリペイドの購入数が増加
IT関連
2023-10-13 02:26
ガートナーが示す新キーワード「ジェネレーティブ」とは
IT関連
2022-04-19 07:31
F1の名門ウィリアムズに復活の兆し–チーム代表が語ったアトラシアンの活用
IT関連
2025-04-13 22:53
パナソニック、全社DXプロジェクト「PX」に向けて「RISE with SAP」採用
IT関連
2022-03-26 08:17
HTTPが全てを飲み込む(前編)~HTTPの2層構造と、HTTP Semanticsとは何か?
HTTP
2024-01-18 07:54
ワシントン州による調査後、「Sold By Amazon」での価格操作に対してアマゾンは2.6億円を支払い、プログラムも終了
IT関連
2022-01-30 20:08
シンガポールのXR企業Refractが約6.8億円調達、ゲーム指向の全身モーションキャプチャソリューション「AXIS」開発を強化
IT関連
2022-02-09 14:19
自然言語処理を簡単にアプリ実装できる「NLPCloud.io」のプラットフォーム
人工知能・AI
2021-05-18 10:10