高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場

今回は「高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIモデルは本当に人間の能力を上回っているのか。それとも、現在のテストが簡単すぎるだけなのだろうか。

 AIスタートアップ企業のScale AIは米国時間1月24日、非営利団体のCenter for AI Safety(CAIS)と共同で、「人間の専門知識の最前線におけるAIの知識の限界をテストする」ことを目的とした学術ベンチマーク「Humanity’s Last Exam」(HLE:人類最後の試験)を発表したと同社のブログで説明した。同ベンチマークのテストは、数学、科学、人文科学など、100以上の科目に関する3000のテキスト/マルチモーダル問題で構成されており、さまざまな分野の専門家によって作成されたという。

 AnthropicでAPI技術部門の責任者を務めるMichael Gerstenhaber氏は2024年11月、Bloombergに対して、AIモデルは頻繁にベンチマークの基準を上回ると述べた。これは、新しいモデルがリリースされると、ベンチマークプラットフォーム「Chatbot Arena」の順位表が急速に変動する理由の一つだという。例えば、多くの大規模言語モデル(LLM)は現在、一般的に使用されるベンチマーク「Massive Multitask Language Understanding」(MMLU)で90%以上のスコアを獲得しており、ベンチマークの飽和とされている。

 一方Scale AIは、現在のモデルにおけるHLEベンチマークテストの正答率は10%未満だったとブログで報告している。

 Scale AIとCAISの研究者は、HLE向けに7万以上もの設問を収集し、1万3000に絞り込んだ。これらの問題は人間の専門家によって評価され、最終的に3000に絞り込まれた。テストでは、OpenAIの「OpenAI o1」や「GPT-4o」、Anthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」などの高性能モデルを活用。MMLU、「MATH」「GPQA」といったほかのベンチマークでも並行して評価した。

 「2021年に難関の競技数学データセットであるMATHベンチマークをリリースした際、最も性能の高いモデルでも10%未満のスコアだった。わずか3年後に90%以上のスコアが達成されると予測した人はほとんどいなかった」とCAISの共同創設者でエグゼクティブディレクターのDan Hendrycks氏は述べた。「HLEでは、モデルが回答できない専門的な選択問題がまだ幾つかあることを示している。それがいつまで続くかを見てみよう」(同氏)

 Scale AIとCAISは、上位の質問を投稿した人々に賞金を授与した。上位50位までの投稿者にはそれぞれ5000ドル、その次の500位までの投稿者には500ドルが贈られた。両者は最終的な設問を公開しているが、別の問題群は非公開にしている。これは、モデルがデータセットに適応しすぎることで、新しいデータでは正確に予測できなくなる「モデルの過学習」を防ぐためだという。

 HLEの作成者は、テスト問題の提出を引き続き受け付けているが、賞金の授与はもう行わないと述べる。ただし、貢献者は共著の資格を得ることができる。

 Scale AIとCAISは、研究者たちが新しいAIシステムとその限界についてさらに研究できるよう、データセットの公開を予定している。全てのベンチマークとサンプル問題は、こちらから確認できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
「Java 22」正式リリース。無名変数と無名パターン、複数のソースコードからなるJavaを一発実行する新機能など。「void main()」な記述もセカンドプレビューへ
Java
2024-03-21 05:57
DropboxがAIサービス開発のための人材の獲得へ向け、約16%の人員削減を発表
Dropbox
2023-05-02 09:47
千葉大学病院とNTT Com、薬剤耐性菌の地域間ベンチマークシステムを開発
IT関連
2024-02-18 04:57
ゲーム要素で人気のEdTech「Kahoot!」がCleverを最大540億円で買収、米国での事業を拡大
EdTech
2021-05-09 04:58
DuckDuckGo、「Windows」向けデスクトップブラウザーのパブリックベータ版を公開
IT関連
2023-06-24 02:50
モノタロウ、オーダー管理システムを高度化–日本IBMの受発注プラットフォームを活用
IT関連
2022-04-09 16:35
トヨクモ、「トヨクモクラウドコネクト」を設立–複数のSaaSをパッケージで提供
IT関連
2023-11-07 10:47
バッテリーリサイクルRedwood Materialsが拡大の一環としてテスラギガファクトリーの近くに拠点設置
EnviroTech
2021-06-16 09:25
【コラム】ドイツのベンチャーキャピタルが離陸するには政府がブレーキを解除する必要がある
VC / エンジェル
2021-08-03 05:58
異色の投資家アーラン・ハミルトン氏はスタートアップの雇用ルートを変えようとしている
IT関連
2022-02-23 04:34
トレンドマイクロ、XDRにセキュリティ製品群の運用管理機能を追加
IT関連
2023-08-30 15:01
ContractS、「ContractS CLM」で「Slack」からの契約作成依頼・相談を可能に
IT関連
2024-02-07 22:56
楽天、データ分析基盤の刷新でグーグル・クラウドを採用
IT関連
2022-04-21 11:53
日銀の「ステルステーパリング」続く–中央銀行は最強のファンドマネージャー?
IT関連
2021-02-04 07:20