「Claude 3 Opus」が「GPT-4」を抜き1位に–Chatbot Arenaランキングで

今回は「「Claude 3 Opus」が「GPT-4」を抜き1位に–Chatbot Arenaランキングで」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 人工知能(AI)スタートアップのAnthropicが提供する大規模言語モデル(LLM)「Claude 3 Opus」が米国時間3月26日、AIチャットボットの能力を比較できる「Chatbot Arena」のランキングで、OpenAIの「GPT-4」を抜いて、首位に輝いた。

 Chatbot Arenaは、さまざまなAIモデルの有効性をテストし、比較できるサイトだ。カリフォルニア大学バークレー校の学生と教授陣らによる、オープンな研究組織Large Model Systems Organization(LMSYS Org)が、2023年5月に立ち上げた。Claudeは今回初めて、同サイトのリーダーボード(順位表)でGPT-4モデルを2位に押しやり、トップに立った。

 Claude 3 Opusは開発者向けAPIとClaude 3ウェブサイトで利用できる。Claude 3の3つのモデルの1つで、ほかに「Sonnet」と「Haiku」がある。同社によると、Claude 3は従来の「Claude 2」「Claude 2.1」と同程度のスピードだが、その知識ははるかに高度だという。

 Chatbot Arenaはクラウドソーシングの手法を用いており、誰でも利用できる。チャットページでは、Claude、「GPT-3.5」、GPT-4のほか、Googleの「Gemini」、Metaの「Llama 2」など、32種類のAIモデルの中から、2つのモデルの回答が表示される。プロンプトを入力すると、2つの回答は「モデルA」および「モデルB」として提供され、どのAIモデルによる回答なのかは知らされない。

 ユーザーはそれぞれの回答を読んだ後に、AとBのどちらを好むか、あるいは同等だと見なすかを選択する。評価を送信して初めて、2つのAIモデルが明かされるようになっている。

 LMYSY Orgはユーザーの投票を基に、相対評価で実力を示すイロ(Elo)レーティングを用いて、LLMランキングを決定する。最新のリーダーボードでは、Claude 3 Opusが1253のスコアを獲得して首位に立ち、「GPT-4-1106-preview」がスコア1251で2位となった。

 最新ランキングで評価が高かったその他のLLMには、「GPT-4-0125-preview」、Googleの「Gemini Pro」、「Claude 3 Sonnet」「GPT-4-0314」「Claude 3 Haiku」などがある。トップ10に、Anthropicの最新のClaude 3モデルがすべてランクインしているのは、注目に値するだろう。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
職業としてのセキュリティ–日本企業のIT分業を覆した「黒船来航」
IT関連
2023-01-24 12:16
「CentOS」の代替OS「AlmaLinux」、CloudLinuxが複数のサポートオプション提供
IT関連
2021-05-07 05:54
巨人用「進撃の巨人」、ギネス認定 「出版された最大の漫画本」に
くらテク
2021-05-25 02:12
OpenAIの活動は「研究開発ではなく製品開発」–Metaのルカン氏
IT関連
2023-04-11 04:08
Teamsの個人向け無償提供スタート/Googleの新デザインフレームワーク「Matrial You」/目の前に相手が実在するかのような「Project Starline」ほか、2021年5月の人気記事
編集後記
2021-06-04 19:47
グーグル、「Android 14」開発者プレビュー第2弾をリリース
IT関連
2023-03-10 18:26
ホンダロック、AIチャットボットでIT部門の業務を効率化–問い合わせ件数・対応時間を半分に
IT関連
2021-07-27 14:36
「マシンはレースごとに変化する」–レーシングチームはアジャイルマネジメントの最前線
IT関連
2021-07-01 09:37
大成建設ら、業務スタイルを変革する「建設承認メタバース」の開発に着手
IT関連
2023-09-13 01:51
iPad Pro 12.9インチに続き、MacBook ProもミニLED搭載か サプライヤーが実装試験開始との情報
IT関連
2021-05-09 22:53
パスワードレスを実現するFIDO/WebAuthのさらなる普及へ、新提案を公開。デバイス間でのクレデンシャル同期、Bluetooth経由でのローミング認証器など
FIDO/WebAuthn
2022-04-05 06:25
コイシカワ、ローコードツール活用で倉庫向けシステムを従来比87%減で開発
IT関連
2022-10-26 18:17
マイクロソフト、AIと音声認識のニュアンスを2兆円超で買収へ
IT関連
2021-04-13 13:02
AIで「適材適所」人材活用を実現するEightfold AIがソフトバンク主導で約241億円調達、評価額約2298億円に
HRテック
2021-06-12 05:51