高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場

今回は「高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIモデルは本当に人間の能力を上回っているのか。それとも、現在のテストが簡単すぎるだけなのだろうか。

 AIスタートアップ企業のScale AIは米国時間1月24日、非営利団体のCenter for AI Safety(CAIS)と共同で、「人間の専門知識の最前線におけるAIの知識の限界をテストする」ことを目的とした学術ベンチマーク「Humanity’s Last Exam」(HLE:人類最後の試験)を発表したと同社のブログで説明した。同ベンチマークのテストは、数学、科学、人文科学など、100以上の科目に関する3000のテキスト/マルチモーダル問題で構成されており、さまざまな分野の専門家によって作成されたという。

 AnthropicでAPI技術部門の責任者を務めるMichael Gerstenhaber氏は2024年11月、Bloombergに対して、AIモデルは頻繁にベンチマークの基準を上回ると述べた。これは、新しいモデルがリリースされると、ベンチマークプラットフォーム「Chatbot Arena」の順位表が急速に変動する理由の一つだという。例えば、多くの大規模言語モデル(LLM)は現在、一般的に使用されるベンチマーク「Massive Multitask Language Understanding」(MMLU)で90%以上のスコアを獲得しており、ベンチマークの飽和とされている。

 一方Scale AIは、現在のモデルにおけるHLEベンチマークテストの正答率は10%未満だったとブログで報告している。

 Scale AIとCAISの研究者は、HLE向けに7万以上もの設問を収集し、1万3000に絞り込んだ。これらの問題は人間の専門家によって評価され、最終的に3000に絞り込まれた。テストでは、OpenAIの「OpenAI o1」や「GPT-4o」、Anthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」などの高性能モデルを活用。MMLU、「MATH」「GPQA」といったほかのベンチマークでも並行して評価した。

 「2021年に難関の競技数学データセットであるMATHベンチマークをリリースした際、最も性能の高いモデルでも10%未満のスコアだった。わずか3年後に90%以上のスコアが達成されると予測した人はほとんどいなかった」とCAISの共同創設者でエグゼクティブディレクターのDan Hendrycks氏は述べた。「HLEでは、モデルが回答できない専門的な選択問題がまだ幾つかあることを示している。それがいつまで続くかを見てみよう」(同氏)

 Scale AIとCAISは、上位の質問を投稿した人々に賞金を授与した。上位50位までの投稿者にはそれぞれ5000ドル、その次の500位までの投稿者には500ドルが贈られた。両者は最終的な設問を公開しているが、別の問題群は非公開にしている。これは、モデルがデータセットに適応しすぎることで、新しいデータでは正確に予測できなくなる「モデルの過学習」を防ぐためだという。

 HLEの作成者は、テスト問題の提出を引き続き受け付けているが、賞金の授与はもう行わないと述べる。ただし、貢献者は共著の資格を得ることができる。

 Scale AIとCAISは、研究者たちが新しいAIシステムとその限界についてさらに研究できるよう、データセットの公開を予定している。全てのベンチマークとサンプル問題は、こちらから確認できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
自動運転技術のオーロラがボルボと提携、高速道路を自律走行するトラックの製造を目指す
モビリティ
2021-04-05 10:06
イセトー、開発プロセス効率化で「Red Hat OpenShift on IBM Cloud」活用
IT関連
2022-02-02 05:44
富士通、首都圏の固定的なオフィスを縮小、データ活用で働き方の可視化を推進
IT関連
2023-09-28 16:57
ツイッターによるロシア国営メディアRT(旧ロシア・トゥデイ)のEU限定ジオブロックは不安定なスタート
IT関連
2022-03-06 11:09
無線ライブ配信に対応したミラーレス一眼、パナソニック「GH5 II」登場 撮影の時間制限なし
くらテク
2021-05-27 18:59
AWSとRKKCS、政府基準の自治体基幹システムパッケージの展開などで協業
IT関連
2022-07-06 06:55
HashiCorp、「Vagrant Cloud」をHCP移行–新名称は「HCP Vagrant Registry」
IT関連
2024-05-26 02:16
CTC、AI用データの事前整理サービス開始 障害者が活躍「エンジニアと同等の技術水準」
ロボット・AI
2021-08-20 07:49
グーグル、「Android」デバイスベンダーによる「パッチの遅れ」に警鐘
IT関連
2022-11-29 21:43
日本IBMとJTB、観光業界のDX推進で新会社
IT関連
2021-04-05 09:22
熟成期間が長いハードチーズを動物性原料を使わずに作るBetter Dairyが約25.3億円を調達
IT関連
2022-03-02 05:57
薬局体験アシスタント「Musubi」のカケハシが全国規模の導入基盤構築でNTT東日本と提携
ヘルステック
2021-05-18 12:33
AIが変えるアメフトの戦略分析–コーチが不要になる日は来るか?
IT関連
2023-05-11 15:32
AR道案内の「PinnAR」、屋内ナビ対応で多様なマーケティング施策を可能に
IT関連
2021-07-12 11:28