高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場

今回は「高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIモデルは本当に人間の能力を上回っているのか。それとも、現在のテストが簡単すぎるだけなのだろうか。

 AIスタートアップ企業のScale AIは米国時間1月24日、非営利団体のCenter for AI Safety(CAIS)と共同で、「人間の専門知識の最前線におけるAIの知識の限界をテストする」ことを目的とした学術ベンチマーク「Humanity’s Last Exam」(HLE:人類最後の試験)を発表したと同社のブログで説明した。同ベンチマークのテストは、数学、科学、人文科学など、100以上の科目に関する3000のテキスト/マルチモーダル問題で構成されており、さまざまな分野の専門家によって作成されたという。

 AnthropicでAPI技術部門の責任者を務めるMichael Gerstenhaber氏は2024年11月、Bloombergに対して、AIモデルは頻繁にベンチマークの基準を上回ると述べた。これは、新しいモデルがリリースされると、ベンチマークプラットフォーム「Chatbot Arena」の順位表が急速に変動する理由の一つだという。例えば、多くの大規模言語モデル(LLM)は現在、一般的に使用されるベンチマーク「Massive Multitask Language Understanding」(MMLU)で90%以上のスコアを獲得しており、ベンチマークの飽和とされている。

 一方Scale AIは、現在のモデルにおけるHLEベンチマークテストの正答率は10%未満だったとブログで報告している。

 Scale AIとCAISの研究者は、HLE向けに7万以上もの設問を収集し、1万3000に絞り込んだ。これらの問題は人間の専門家によって評価され、最終的に3000に絞り込まれた。テストでは、OpenAIの「OpenAI o1」や「GPT-4o」、Anthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」などの高性能モデルを活用。MMLU、「MATH」「GPQA」といったほかのベンチマークでも並行して評価した。

 「2021年に難関の競技数学データセットであるMATHベンチマークをリリースした際、最も性能の高いモデルでも10%未満のスコアだった。わずか3年後に90%以上のスコアが達成されると予測した人はほとんどいなかった」とCAISの共同創設者でエグゼクティブディレクターのDan Hendrycks氏は述べた。「HLEでは、モデルが回答できない専門的な選択問題がまだ幾つかあることを示している。それがいつまで続くかを見てみよう」(同氏)

 Scale AIとCAISは、上位の質問を投稿した人々に賞金を授与した。上位50位までの投稿者にはそれぞれ5000ドル、その次の500位までの投稿者には500ドルが贈られた。両者は最終的な設問を公開しているが、別の問題群は非公開にしている。これは、モデルがデータセットに適応しすぎることで、新しいデータでは正確に予測できなくなる「モデルの過学習」を防ぐためだという。

 HLEの作成者は、テスト問題の提出を引き続き受け付けているが、賞金の授与はもう行わないと述べる。ただし、貢献者は共著の資格を得ることができる。

 Scale AIとCAISは、研究者たちが新しいAIシステムとその限界についてさらに研究できるよう、データセットの公開を予定している。全てのベンチマークとサンプル問題は、こちらから確認できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
NEC、自治体のデジタルツール導入状況を調査–3割が学習eポータル未導入
IT関連
2022-11-04 05:26
ツイッターが「ポッドキャスト」タブを開発していることが明らかに
IT関連
2022-03-07 21:26
Zoom、開発者向けに「Video SDK」やポータルサイトなど充実
IT関連
2021-03-23 06:34
HPE、ハードウェア共通化に向けたストレージ新製品やファイルサービスを提供
IT関連
2023-05-19 13:29
NTTドコモら3社、生成AI活用で実証実験–社内業務のDX推進や付加価値サービスの提供を目指す
IT関連
2023-08-23 08:17
Linux 6.0がリリース、「重要な新要素」やRustの導入は6.1に
IT関連
2022-10-06 11:19
「Windows 11」新機能のリリース手段はどうなる?–MSがInsiderプログラムの方針など示す
IT関連
2022-02-05 09:37
フィッシングのなりすましブランド–トップはマイクロソフト、日本は「au」
IT関連
2022-08-07 01:22
ボルボが車両のデジタル化が進む今後も「高い安全性」というイメージを維持する方法
IT関連
2022-01-31 11:01
CES 2021プレスカンファレンス映像を「格付け」する (1/4)
くわしく
2021-01-22 05:21
東京大学と農研機構が作物の品種改良を行う育種家の感性を解明、柑橘類の皮の剥きやすさと実の硬さを深層学習で定量化
IT関連
2022-02-15 07:21
Box Japan、インテリジェンス分野の取り組みを加速–2025会計年度は「Box AI元年」
IT関連
2024-04-20 23:01
Asana、法人向け新機能と国内データセンター開設を発表
IT関連
2022-11-02 08:25
Appleとハーバード大、1万人参加のアプリによる月経調査の予備データを公開
アプリ・Web
2021-03-11 14:39