高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場

今回は「高性能モデルも苦戦–計3000問の学術ベンチマーク「人類最後の試験」が登場」についてご紹介します。

関連ワード (データマネジメント等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 AIモデルは本当に人間の能力を上回っているのか。それとも、現在のテストが簡単すぎるだけなのだろうか。

 AIスタートアップ企業のScale AIは米国時間1月24日、非営利団体のCenter for AI Safety(CAIS)と共同で、「人間の専門知識の最前線におけるAIの知識の限界をテストする」ことを目的とした学術ベンチマーク「Humanity’s Last Exam」(HLE:人類最後の試験)を発表したと同社のブログで説明した。同ベンチマークのテストは、数学、科学、人文科学など、100以上の科目に関する3000のテキスト/マルチモーダル問題で構成されており、さまざまな分野の専門家によって作成されたという。

 AnthropicでAPI技術部門の責任者を務めるMichael Gerstenhaber氏は2024年11月、Bloombergに対して、AIモデルは頻繁にベンチマークの基準を上回ると述べた。これは、新しいモデルがリリースされると、ベンチマークプラットフォーム「Chatbot Arena」の順位表が急速に変動する理由の一つだという。例えば、多くの大規模言語モデル(LLM)は現在、一般的に使用されるベンチマーク「Massive Multitask Language Understanding」(MMLU)で90%以上のスコアを獲得しており、ベンチマークの飽和とされている。

 一方Scale AIは、現在のモデルにおけるHLEベンチマークテストの正答率は10%未満だったとブログで報告している。

 Scale AIとCAISの研究者は、HLE向けに7万以上もの設問を収集し、1万3000に絞り込んだ。これらの問題は人間の専門家によって評価され、最終的に3000に絞り込まれた。テストでは、OpenAIの「OpenAI o1」や「GPT-4o」、Anthropicの「Claude 3.5 Sonnet」、Googleの「Gemini 1.5 Pro」などの高性能モデルを活用。MMLU、「MATH」「GPQA」といったほかのベンチマークでも並行して評価した。

 「2021年に難関の競技数学データセットであるMATHベンチマークをリリースした際、最も性能の高いモデルでも10%未満のスコアだった。わずか3年後に90%以上のスコアが達成されると予測した人はほとんどいなかった」とCAISの共同創設者でエグゼクティブディレクターのDan Hendrycks氏は述べた。「HLEでは、モデルが回答できない専門的な選択問題がまだ幾つかあることを示している。それがいつまで続くかを見てみよう」(同氏)

 Scale AIとCAISは、上位の質問を投稿した人々に賞金を授与した。上位50位までの投稿者にはそれぞれ5000ドル、その次の500位までの投稿者には500ドルが贈られた。両者は最終的な設問を公開しているが、別の問題群は非公開にしている。これは、モデルがデータセットに適応しすぎることで、新しいデータでは正確に予測できなくなる「モデルの過学習」を防ぐためだという。

 HLEの作成者は、テスト問題の提出を引き続き受け付けているが、賞金の授与はもう行わないと述べる。ただし、貢献者は共著の資格を得ることができる。

 Scale AIとCAISは、研究者たちが新しいAIシステムとその限界についてさらに研究できるよう、データセットの公開を予定している。全てのベンチマークとサンプル問題は、こちらから確認できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
トヨタが圧倒的に信頼性が高いApex.AIの自動運転ソフトウェア開発キットの使用を発表
モビリティ
2021-04-16 19:17
「リアルタイムLinux」がメインラインカーネルに完全統合–20年に及ぶ開発を振り返る
IT関連
2024-09-26 18:09
Windows 11に見捨てられたPCをChromebook化して幸せに :小寺信良のIT大作戦(1/4 ページ)
トップニュース
2021-07-07 18:00
「Chrome」「Android」向けパスワードマネージャーがアップデート
IT関連
2022-07-02 01:29
ワイヤレス充電技術のPowermatが太陽光発電設備を自律ロボで掃除するJetsons Roboticsと提携、産業用アプリ進出を目指す
ハードウェア
2021-01-23 21:54
IBM、433量子ビット搭載の量子プロセッサー「Osprey」を発表
IT関連
2022-11-12 05:58
モブプログラミングは、なぜ5人が1台のPCで仕事をしているのに生産的になれるのか(前編)。モブプログラミングの生みの親が解説するその理由と効果とは?
DevOps
2024-09-10 23:53
クアルトリクス首脳が説く「DX時代のエクスペリエンス管理」の重要性
IT関連
2023-08-11 17:10
KDDIら、ローソン店舗をハブとしたドローン配送を秩父市で実証へ
IT関連
2024-10-30 05:41
薬局体験アシスタント「Musubi」のカケハシが全国規模の導入基盤構築でNTT東日本と提携
ヘルステック
2021-05-18 12:33
博報堂と新潟県、地元コンテンツを配信するLINEアカウント開設–関係人口の創出へ
IT関連
2024-03-13 17:35
AI本格時代のデータとITインフラがビジネス競争の源泉に–デルが年次イベント
IT関連
2024-10-05 05:30
複数デリバリー・テイクアウトサービスからの注文を一元管理できる飲食店向けSaaS「CAMEL」のtacomsが資金調達
ネットサービス
2021-05-22 20:33
タムラ製作所、グローバル経営基盤の刷新にオラクルのクラウド製品を全面採用
IT関連
2023-01-13 17:53