マイクロソフト、視覚的なコンテンツも認識するマルチモーダルAI「Kosmos-1」を発表

今回は「マイクロソフト、視覚的なコンテンツも認識するマルチモーダルAI「Kosmos-1」を発表」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 Microsoftは、同社がマルチモーダル大規模言語モデル(MLLM)と呼ぶ新たな人工知能(AI)モデル「Kosmos-1」を発表した。Kosmos-1は言葉によるプロンプトに答えるだけでなく、視覚的なキュー(きっかけ)にも対応できるようになっている。このため、画像に説明を付けたり、画像に関連した質問に回答するなどの、さまざまなタスクに利用できる。

 OpenAIの「ChatGPT」によって、GPTモデルなどの大規模言語モデル(LLM)というコンセプトとともに、テキストプロンプトや入力を出力へと変換する処理に関する可能性が一般に知られるようになった。

 MicrosoftのAI研究者らは「Language Is Not All You Need: Aligning Perception with Language Models」(必要なのは言葉だけではない:知覚と言語モデルの整合)という論文の中で、人々が対話能力に感銘を受ける一方、LLMは依然として画像や音声でのプロンプトといったマルチモーダルな入力に苦戦していると述べている。そして、ChatGPTのような能力を汎用人工知能(AGI)のレベルに引き上げるには、マルチモーダル知覚、すなわち現実世界における知識獲得と、「グラウンディング」(現実世界での意味とコンピューター内部のシンボルの関連付け)が必要だと示唆している。

 この論文には「より重要なのは、マルチモーダルな入力を実現することで、マルチモーダルな機械学習(ML)や、ドキュメントインテリジェンス、ロボティクスといった、より価値の高い領域へ言語モデルの応用範囲が大きく広がるという点だ」と記されている。

 Alphabet傘下のロボティクス企業であるEveryday Robotsと、Google ResearchのBrain Teamは2022年にLLMを用いて、人間が指示した物理的なタスクをロボットに実行させ、グラウンディングの役割を示して見せた。このアプローチには、現実世界において与えられたコンテキスト内で実行可能なタスクにおける言語モデルのグラウンディングが含まれていた。一方Microsoftも、同社の「Prometheus」というAIモデルでグラウンディングを使用し、OpenAIのGPTモデルと、「Bing」検索順位や検索結果に基づく現実世界のフィードバックを統合している。

 Microsoftによると、同社のKosmos-1は汎用モーダリティーの知覚や、指示の遂行(ゼロショット学習)、コンテキスト内での学習(Few-Shot《フューショット:少ないデータでの》学習)が可能だという。また論文には「目標は、知覚とLLMを整合させることで、モデルが見たり聞いたりできるようにすることだ」と記されている。

 プロンプトに対するKosmos-1の出力デモンストレーションには、にんまり笑った口の描かれた紙が猫の口元に差し出されている写真も使われていた。その際のプロンプトは「この写真が面白い理由を説明してください」であり、Kosmos-1の回答は「猫が、笑っているように見えるマスクをしている」というものだった。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
HPE、「Aruba」の機能でサードパーティーのネットワーク機器も監視対応へ
IT関連
2024-10-02 12:32
「ではビートルズ、イン・マイ・ライフをどうぞ」 ポッドキャストなのに商用音楽を使った音楽番組ができるSpotify「Music + Talk」が楽しすぎる :CloseBox(1/2 ページ)
くらテク
2021-08-20 20:33
データはあるのに分散していて活用できない! “宝の持ち腐れ”解消に向け現場の技術者がとった手段
PR
2021-08-04 03:28
Arm版「Windows」再び–マイクロソフトはサプライズを起こせるか
IT関連
2023-08-04 16:25
Apple、採用情報に「homeOS」を記載(その後削除)
IT関連
2021-06-05 05:23
「日本のためのクラウドとAIに注力する」–日本オラクル・三澤社長が講演
IT関連
2023-11-03 00:00
豊田自動織機、富士ソフトとAI自動補正システムを構築
IT関連
2021-07-22 02:19
「macOS」で「スマートフォルダ」を作成するには–特定条件のファイルに素早くアクセス
IT関連
2023-01-17 15:15
第25回:ITベンダーからの転職が増えたひとり情シスの姿
IT関連
2021-04-08 07:26
「Windows Subsystem for Android」に言及–「Windows 11」の「Android」アプリ対応
IT関連
2021-06-25 16:11
プログラミングのためのBGM/ずっと無料で使えるクラウドサービス/Fastly、障害を1分で検知し49分で復旧/AWSのローコード開発ツールほか、2021年6月の人気記事
編集後記
2021-07-09 17:01
ITエンジニアのための新刊案内(2023年6月):改訂新版Webエンジニアの教科書/動かして学ぶ!Flutter開発入門/自作OSで学ぶマイクロカーネルの設計と実装 、ほか
新刊案内
2023-06-02 05:29
アプトポッド、エッジコンピューター「EDGEPLANT」発表–ハードウェア事業に参入
IT関連
2021-03-09 19:40
今週の記事ランキング(2021.5.16〜5.20)
IT関連
2021-05-22 03:26