「ChatGPT」を超える未来の生成AI–進化の鍵を握るマルチモダリティー

今回は「「ChatGPT」を超える未来の生成AI–進化の鍵を握るマルチモダリティー」についてご紹介します。

関連ワード (CIO/経営、生成AIの台頭等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)は、チェスでの勝利、タンパク質の折りたたみの予測、猫や犬のラベル付けなど、多くの成果によってメディアを賑わせてきたが、生成AIとして知られるAIほど世界の想像力を魅了したものはない。

 「ChatGPT」は1月、史上最速の成長を遂げたソフトウェアプログラムとなり、一般公開から2カ月足らずでユーザー数が1億人に達した。それを受けて、Googleの「Bard」などのプロプライエタリープログラムや、カリフォルニア大学バークレー校の「Koala」などのオープンソースプログラムなど、数多くの競合プログラムが登場した。興奮が高まる中、テクノロジー大手のMicrosoftとGoogle、その競合他社の間で開発競争が勃発し、AIチップメーカーNVIDIAの事業が急成長した。

 これほどの熱狂が巻き起こっている状況の根底には、単純な事実がある。それは、過去のAIプログラムは主に数値スコアを生成していたが(猫の写真には「1」、犬の写真には「0」など)、それと違ってChatGPTや画像生成AI(Stability.aiの「Stable Diffusion」やOpenAIの「DALL•E」など)は、世界の何かを再現するということだ。

 こうしたプログラムは、段落、写真、さらにはコンピュータープログラムのスケルトンを出力することで、社会の創造物を再現している。

 この再現という側面が、ごく短期間のうちに劇的に強まっていくだろう。

 現在の生成プログラムは、2023年末の普及が見込まれるプログラムの能力と比較すると、原始的に思えるようになるだろう。その頃には、さらに多くの種類のデータを出力しているからだ。

 プログラムがテキスト、画像、物理空間の「点群」、音声、動画、コンピューター機能全体をスマートアプリケーションとして融合していくにつれて、コンピューター科学者が混合モダリティー、あるいは「マルチモダリティー」と呼ぶものが中心になっていくだろう。

 混合モダリティーは、以前よりはるかに高性能なプログラムを可能にし、継続学習という長年の目標の達成に寄与する。ロボット工学と組み合わせることで、「身体性AI」という目標においても進展があるかもしれない。

 「ChatGPTは娯楽のために作られた。多くのことを非常にうまく実行するが、デモのようなものだ」。AIスタートアップMosaicMLの創設者であるNaveen Rao氏は、米ZDNETとのインタビューでこのように語った。「今、考えなければならないのは、何かの目的に使用する場合、どうすればもっと良いものにできるのか、という点だ」

 Rao氏が創設したMosaicMLは、AIプログラム運用の専門知識を評価されて、Databricksに買収された。同氏は現在、Databricksで生成AI担当バイスプレジデントを務めている。

 その改善の一環として、生成AIは単なる個人用「コパイロット」以上の存在になるだろう。たとえばMicrosoftの「GitHub Copilot」は、1人の個人のチャットプロンプト入力を支援するが、Stability.aiの創設者で最高経営責任者(CEO)を務めるEmad Mostaque氏は、生成AIが個人用ではなく、チーム向けの共同作業用プログラムになる、と米ZDNETとのインタビューで語った。

 「多くのAIは、単に1対1のやりとりに使用されるものか、自律型のエージェントだ」とMostaque氏。「現在は『iPhone』の2G段階のようなもので、単なるシングルモードであり、カット&ペーストをするだけだ。一方、何より刺激的なのは、AIを使って共同作業をどのように改善し、より良い物語を伝えるか、ということだと思う。それは孤立した取り組みではない」

 DatabricksのRao氏は、「根本的に欠けている」ものの1つは「世界のマルチモーダル性だ」と述べ、その理由を「大規模言語モデルはテキストを通してのみ世界を認識するという点で非常に1次元的である」とした。

 モダリティーとは、テキスト、画像、動画のような入力と出力の性質を指す。さまざまなモダリティーが可能で、以前から検討されており、その多様性が増している。これは、ChatGPTを動かす基本概念と同じものをあらゆる種類の入力に適用できるからだ。

 「間違いなく、マルチモダリティーこそが目指すべき方向性だ」とMostaque氏は語る。「あらゆる種類のモデルが必要になるが、それらを組み合わせれば、素晴らしいことになる」

 「言語だけのものが大きな反響と興奮を呼んだため、メディアはそこに注目しているが、他のものに関する本格的な取り組みが進行中だ」。著名なコンピューターチップ設計者で、AIチップのスタートアップTenstorrentのCEOでもあるJim Keller氏は、米ZDNETとのインタビューでこう語った。Keller氏は、混合モダリティーの処理が今後のAIの大きな需要の1つになるという確信のもとで、Tenstorrentを経営している。

 ChatGPTの技術の根幹を成す大規模言語モデルでは、テキストがトークン、すなわち定量的な数学的表現に変換される。その後、機械はフレーズ全体の隠された部分、またはフレーズの後半部分から欠落しているものを見つけなければならない。ChatGPTが出力する段落を生み出すのは、再構築の作業だ。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
GWにチェックしたい「バーチャル博物館」5選 :緊急事態宣言下のおうちコンテンツ
くわしく
2021-05-04 00:09
綱引きの“八百長装置” 外部から引力をこっそり制御、接戦を演出 東大など「The Tight Game」開発 :Innovative Tech
トップニュース
2021-03-23 00:54
マイクロソフト、AIインフラサービス「Singularity」の詳細を説明
IT関連
2022-02-24 22:08
ウェザーニューズ、Cookieに頼らない「天気連動型動画広告」 CTRは従来比40%向上
企業・業界動向
2021-07-20 06:18
【コラム】バイデン政権はインクルーシブであるためにAI開発の取り組みにもっと力を入れる必要がある
パブリック / ダイバーシティ
2021-04-30 20:57
エイピアCEOが語る、初の通期黒字化と業績好調の背景
IT関連
2023-03-25 08:29
ビットコインが暴落:日本株への影響は?–注目は米国半導体株
IT関連
2021-05-28 12:22
東大医科研とIBMが新型コロナウイルスのゲノム解析システムを共同開発 変異株対策に一手
科学・テクノロジー
2021-06-10 03:38
GitHub、「Contributors GitHub Action」公開–コントリビューターついて洞察を得ることを可能に
IT関連
2023-10-26 03:00
AIが店内映像解析、接客を効率化 埼玉県のイオンで
IT関連
2021-06-05 17:59
マイクロソフトの政治活動委員会が選挙結果に反対した政治家への献金を止め進歩的な団体を支援
その他
2021-02-07 18:33
アプリ多言語化ソリューション「WOVN.app」、プッシュ通知の多言語化機能を提供へ
IT関連
2023-08-02 01:29
DEIを進める日立、レインボーカラーの企業ロゴ作成–自社の姿勢示す
IT関連
2023-05-27 14:35
日本IBM社長が説く「企業がDXを成功に導く3つのポイント」とは
IT関連
2021-04-30 00:24