「ChatGPT」を超える未来の生成AI–進化の鍵を握るマルチモダリティー

今回は「「ChatGPT」を超える未来の生成AI–進化の鍵を握るマルチモダリティー」についてご紹介します。

関連ワード (CIO/経営、生成AIの台頭等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)は、チェスでの勝利、タンパク質の折りたたみの予測、猫や犬のラベル付けなど、多くの成果によってメディアを賑わせてきたが、生成AIとして知られるAIほど世界の想像力を魅了したものはない。

 「ChatGPT」は1月、史上最速の成長を遂げたソフトウェアプログラムとなり、一般公開から2カ月足らずでユーザー数が1億人に達した。それを受けて、Googleの「Bard」などのプロプライエタリープログラムや、カリフォルニア大学バークレー校の「Koala」などのオープンソースプログラムなど、数多くの競合プログラムが登場した。興奮が高まる中、テクノロジー大手のMicrosoftとGoogle、その競合他社の間で開発競争が勃発し、AIチップメーカーNVIDIAの事業が急成長した。

 これほどの熱狂が巻き起こっている状況の根底には、単純な事実がある。それは、過去のAIプログラムは主に数値スコアを生成していたが(猫の写真には「1」、犬の写真には「0」など)、それと違ってChatGPTや画像生成AI(Stability.aiの「Stable Diffusion」やOpenAIの「DALL•E」など)は、世界の何かを再現するということだ。

 こうしたプログラムは、段落、写真、さらにはコンピュータープログラムのスケルトンを出力することで、社会の創造物を再現している。

 この再現という側面が、ごく短期間のうちに劇的に強まっていくだろう。

 現在の生成プログラムは、2023年末の普及が見込まれるプログラムの能力と比較すると、原始的に思えるようになるだろう。その頃には、さらに多くの種類のデータを出力しているからだ。

 プログラムがテキスト、画像、物理空間の「点群」、音声、動画、コンピューター機能全体をスマートアプリケーションとして融合していくにつれて、コンピューター科学者が混合モダリティー、あるいは「マルチモダリティー」と呼ぶものが中心になっていくだろう。

 混合モダリティーは、以前よりはるかに高性能なプログラムを可能にし、継続学習という長年の目標の達成に寄与する。ロボット工学と組み合わせることで、「身体性AI」という目標においても進展があるかもしれない。

 「ChatGPTは娯楽のために作られた。多くのことを非常にうまく実行するが、デモのようなものだ」。AIスタートアップMosaicMLの創設者であるNaveen Rao氏は、米ZDNETとのインタビューでこのように語った。「今、考えなければならないのは、何かの目的に使用する場合、どうすればもっと良いものにできるのか、という点だ」

 Rao氏が創設したMosaicMLは、AIプログラム運用の専門知識を評価されて、Databricksに買収された。同氏は現在、Databricksで生成AI担当バイスプレジデントを務めている。

 その改善の一環として、生成AIは単なる個人用「コパイロット」以上の存在になるだろう。たとえばMicrosoftの「GitHub Copilot」は、1人の個人のチャットプロンプト入力を支援するが、Stability.aiの創設者で最高経営責任者(CEO)を務めるEmad Mostaque氏は、生成AIが個人用ではなく、チーム向けの共同作業用プログラムになる、と米ZDNETとのインタビューで語った。

 「多くのAIは、単に1対1のやりとりに使用されるものか、自律型のエージェントだ」とMostaque氏。「現在は『iPhone』の2G段階のようなもので、単なるシングルモードであり、カット&ペーストをするだけだ。一方、何より刺激的なのは、AIを使って共同作業をどのように改善し、より良い物語を伝えるか、ということだと思う。それは孤立した取り組みではない」

 DatabricksのRao氏は、「根本的に欠けている」ものの1つは「世界のマルチモーダル性だ」と述べ、その理由を「大規模言語モデルはテキストを通してのみ世界を認識するという点で非常に1次元的である」とした。

 モダリティーとは、テキスト、画像、動画のような入力と出力の性質を指す。さまざまなモダリティーが可能で、以前から検討されており、その多様性が増している。これは、ChatGPTを動かす基本概念と同じものをあらゆる種類の入力に適用できるからだ。

 「間違いなく、マルチモダリティーこそが目指すべき方向性だ」とMostaque氏は語る。「あらゆる種類のモデルが必要になるが、それらを組み合わせれば、素晴らしいことになる」

 「言語だけのものが大きな反響と興奮を呼んだため、メディアはそこに注目しているが、他のものに関する本格的な取り組みが進行中だ」。著名なコンピューターチップ設計者で、AIチップのスタートアップTenstorrentのCEOでもあるJim Keller氏は、米ZDNETとのインタビューでこう語った。Keller氏は、混合モダリティーの処理が今後のAIの大きな需要の1つになるという確信のもとで、Tenstorrentを経営している。

 ChatGPTの技術の根幹を成す大規模言語モデルでは、テキストがトークン、すなわち定量的な数学的表現に変換される。その後、機械はフレーズ全体の隠された部分、またはフレーズの後半部分から欠落しているものを見つけなければならない。ChatGPTが出力する段落を生み出すのは、再構築の作業だ。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
ネット通信量、平日昼間3〜5割増 緊急事態宣言で、前回と違いも
IT関連
2021-02-07 19:54
Netflix、Valveの人気MOBA「Dota 2」のアニメシリーズを3月独占配信開始
アプリ・Web
2021-02-18 14:58
サムスンがウェアラブル向け5nm新プロセッサ「Exynos W920」発表、次期Galaxy Watchで採用
ハードウェア
2021-08-12 04:28
Clubhouse、そしてDispo 招待制というハードルがありながら緩くつながれるアプリに人気が集まる時代 (1/3 ページ)
くわしく
2021-02-26 19:33
大麻大手のLeaflyがSPAC合併経由で上場へ、評価額は約590億円
パブリック / ダイバーシティ
2021-08-12 17:07
「まごチャンネル」のチカクが5億円を調達、新サービス開発および事業提携を加速
IoT
2021-04-07 18:38
本物のクラウドと従来型サービスを誤解していないか–ガートナーが流行解説
IT関連
2022-11-04 06:52
WebAssemblyとWebGPUを用い、Webブラウザ上でStable Diffusion Turbo全体を高速実行可能な推論エンジン「ONNX Runtime Web 1.17」マイクロソフトから登場
Microsoft
2024-03-08 19:29
「ChatGPT」の知性はゼロだが、人間の仕事を奪う可能性はある–AI専門家カウフマン氏
IT関連
2023-04-04 04:39
包括的メンズヘルスケア「Manual」が米国と欧州の投資家から33.1億円のシリーズAを調達
ヘルステック
2021-04-01 23:30
Linuxカーネル開発における「Rust」採用の動き、グーグルとISRGがさらなる後押し
IT関連
2021-06-21 21:18
次なる成長の弾は何か?–デルの幹部は何と答えたか
IT関連
2023-03-18 21:31
freee会計が楽天銀行とのAPI連携を終了、口座明細の自動取り込みを2月24日17時頃に停止
IT関連
2022-01-25 15:44
ポケモンGOで7日に「ロゼリア」大量発生 タマゴのふ化距離は4分の1に
くらテク
2021-02-07 04:49