オープンソースの生成AIが「GPT-4」に一歩及ばない理由

今回は「オープンソースの生成AIが「GPT-4」に一歩及ばない理由」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 生成型の人工知能(AI)に関して最も熱く交わされている議論の1つが、オープンソースとクローズドソースの比較だ。結局、どちらの方が価値が上なのか。

 一方では、常に進化を続けるきら星のごときコントリビュータ―たちによって、数多くのオープンソースの大規模言語モデルが作られ続けている。その中でも特に有名なのが、Metaの「Llama 2」だ。一方、クローズドソースの大規模言語モデルの代表例は、商用モデルとして定評がある2つのモデルである、OpenAIの「GPT-4」と、ベンチャーキャピタルの支援を受けているスタートアップAnthropicの言語モデル「Claude 2」だろう。

 これらのモデルをテストして互いに比較する方法の1つに、特定の分野(例えば医療知識)の質問に回答させ、その善し悪しを比べるというやり方がある。

 権威のある医学論文誌を発行しているNew England Jounal of Medicineが創刊した新論文誌「NEJM AI」に最近掲載された、ペパーダイン大学、カリフォルニア大学ロサンゼルス校、カリフォルニア大学リバーサイド校の研究者らが執筆した論文によれば、そのテストで、Llama 2の腎臓学に関する質問に答える能力は残念なものであることが明らかになったという。

 第一著者であるペパーダイン大学Data Science InstituteのSean Wu氏をはじめとする著者らは、「オープンソースのモデルは、GPT-4やClaude 2と比べて総正解数と説明の質の点で劣っていた」と述べている。

 論文には「GPT-4は非常に優れた成績を収め、ほとんどのテーマで人間と同様の成績を収めた」とある。GPT-4は、複数の選択肢から回答を選択する方式の腎臓学に関する問題で、人間の受験者の合格点である75%をわずかに下回る73.3%のスコアを獲得した。

 著者らは「オープンソース大規模言語モデルの大半の総合スコアは、質問にランダムに回答した場合のスコアと変わらなかった」と述べ、5つのオープンソースモデルの中ではLlama 2が最も良い成績を収めたとした(5つの中には「Vicuna」や「Falcon」も含まれている)。しかしそのLlama 2のスコアも30.6%で、ランダムに回答した水準(23.8%)を少し上回っただけだった。

 この研究は、AIの分野で「ゼロショット」と呼ばれている種類のタスクをテストするものだった。ゼロショットとは、正しい回答や間違った回答の例を与えず、修正も行わずに言語モデルを使用することを意味する。ゼロショットのアプローチを用いれば、言語モデルがトレーニングデータの中にはない新たな能力を獲得する能力である「コンテキスト内学習」の能力をテストすることができる。

 このテストでは、Llama 2をはじめとする5つのオープンソースモデルと2つの商用モデルを対象として、「Nephrology Self-Assessment Program(nephSAP)」(米国腎臓学会が出版した医師の自習用教材)から抜粋された腎臓学に関する問題858件に回答させた。

 著者らは、nephSAPのプレーンテキストファイルを言語モデルに入力できるプロンプトに変換するために、かなりの量のデータの準備作業を行う必要があった。それらのプロンプトには、自然言語で記述された問題と回答の選択肢が含まれていた(他の人が検証できるように、実際に使われたデータがHugging Faceで公開されている)。

 さらに、言語モデルは多くの場合、回答として長文のテキストを出力するため、各モデルの回答を読み取って正解と比較し、出力結果を自動的に採点する技術を開発しなくてはならなかったという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
CTC、伊藤忠商事の北米現地法人に「SAP S/4HANA Cloud」提供
IT関連
2021-03-04 18:04
Snowflakeと資産運用大手ブラックロックが提携–「Aladdin Data Cloud」ソリューション提供へ
IT関連
2021-02-25 21:00
Amazon Auroraのシャーディングによる負荷分散を、スケーラブルなNewSQLデータベース「TiDB」で置き換えへ。高負荷なオンラインゲームにも耐えると評価[PR]
AWS
2024-01-29 16:38
ナンバープレート替えて自転車になる電動バイク、折りたたみ電動シニアカー 日本の道を行くマイクロモビリティの最新形 (1/6 ページ)
くわしく
2021-05-29 11:23
テレワークで電気製品を多用、消費電力の上限は要確認 発火する事故も
IT関連
2021-02-02 16:04
経済の先行き不透明でも、サブスクビジネスは持続的に成長–Zuora調査レポート
IT関連
2022-11-18 14:05
気が散らないメッセージングアプリ「Quill」、どこからともなく現れSlackに迫る勢い
ネットサービス
2021-03-19 07:14
デジタル人材の半数、「業務がChatGPTなどのAIに代替される」と回答
IT関連
2023-04-19 01:00
ダイキン工業、温暖化対策で空調冷媒の管理にブロックチェーンを適用
IT関連
2022-06-25 13:16
KiZUKAIがサブスク事業者向けLTV・解約率改善ツール正式版をリリース
ネットサービス
2021-02-09 15:44
Linux Foundationが「法律専門家のための WebAssembly ~ ライセンス・コンプライアンスにおける現在のパラメータを探る」日本語版ドキュメント公開
WebAssembly
2022-12-19 08:35
New Relic、自社プラットフォームを「NVIDIA NIM」推論マイクロサービスと統合
IT関連
2024-06-27 23:10
スーパーストリーム、非定型の請求書も明細まで解析/仕訳するAI-OCRを提供
IT関連
2021-05-25 15:44
5月17日は「くぁwせdrftgyふじこlp」「AQUOS R6」が話題に 今日のトレンドをサクッとおさらい : ほぼ日刊ITトレンドワード
ネットトピック
2021-05-18 05:42