AIチャットボットの能力を比較評価できる「Chatbot Arena」–ユーザーの判定を反映

今回は「AIチャットボットの能力を比較評価できる「Chatbot Arena」–ユーザーの判定を反映」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 生成型の人工知能(AI)を搭載したチャットボットサービスの「ChatGPT」が2022年11月に公開され、爆発的な人気を博して以来、類似サービスの投入が相次いでいる。これらのチャットボットは、利用している大規模言語モデル(LLM)や、価格、ユーザーインターフェース、インターネットへのアクセスといった点でさまざまであり、どれを使うか悩ましい状況だ。

 これらのチャットボットを簡単に比較できるようにするべく、カリフォルニア大学バークレー校の学生と教授陣らが設立したオープンな研究組織Large Model Systems Organization(LMSYS Org)は「Chatbot Arena」(チャットボット競技場)を作り出した。

 Chatbot ArenaはLLMのベンチマークプラットフォームで、ユーザーはランダムに選択された2つのモデルに対してプロンプトを入力し、どのLLMが回答しているか明かされない状態で、どちらが優れているかを選択するようになっている。

 ユーザーが優れていると判断した方を選択すると、出力を生成するためにどのLLMが使われたかが表示される。

 LMSYS Orgによると、ユーザーが評価した結果は、チェスの公式記録で用いられているイロレーティング(Elo rating)システムに基づいて順位付けされ、リーダーボード(順位表)に反映される。

 筆者はChatbot Arenaを自ら試すべく、「何カ月も前から計画していた休暇を取得するため、しばらく職場を離れることを上司に伝える電子メールを書いてください」というプロンプトを入力した。

 返ってきた2つの回答は大きく異なるものだった。一方はこういった電子メールにふさわしい文脈と長さになっており、埋めるべき空欄も用意されていた。

 「モデルB」を勝者に選んだ後、それがMetaの「LLaMA」モデルをベースにしてLMSYS Orgが開発した「vicuna-7b」であることが分かった。そして敗者はNomic AIが「LLaMA 13B」に微調整を加えて開発した「GPT4All-13b-snoozy」だった。

 リーダーボードによると本記事執筆時点では、OpenAIの最新LLMである「GPT-4」が1227というArena Eloレーティングを獲得し、予想に違わず首位に立っている。2位は1178というレーティングを獲得した、Anthropicが開発した「Claude-v1」だ。

 GPT-4は「Bing」のチャット機能と「ChatGPT Plus」の双方に搭載されており、両者は現時点で利用可能な最高のチャットボットと言えそうだ。また、この結果は米ZDNetが独自に評価したAIチャットボットのランキングとも一致している。

 2位にランクインしたAnthropicのClaude-v1は現時点では一般公開されていないが、先行アクセスのための順番待ちリストに登録できる。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
PS5版「torne」年末までに登場 PS4版もバッファローの「nasne」に対応 SIE発表
くらテク
2021-03-18 21:26
グーグル、米最高裁でオラクルに勝訴–「Android」Javaコード訴訟で
IT関連
2021-04-06 17:03
富士通の中期経営計画折り返し、決算で見えた幾つもの「転換点」
IT関連
2024-11-02 07:34
ホワイトハウスが暗号通資産に関する大統領令を発表
IT関連
2022-03-11 09:58
ロシア拠点のハッカー集団「DarkSide」が米石油パイプライン攻撃に関与の可能性–狙いは
IT関連
2021-05-11 15:36
その企業にとって価値の高いユーザーフローをノーコードで作れる豪Upflowyが約4.6億円調達
IT関連
2022-02-23 16:13
NEC、RPAツールの最新版で初心者向けに作成をサポートする新機能
IT関連
2023-07-13 15:47
SBテクノロジー、ゼロトラストセキュリティ短期構築サービスを開始
IT関連
2021-02-02 16:20
ウィズセキュアのセキュリティカンファレンス「SPHERE24」–写真でめぐる会場内
IT関連
2024-06-08 08:43
ニッセイ情報テクノロジー、リモート開発環境をIBM Cloudで構築
IT関連
2021-03-17 23:53
確定申告時に必要な帳票の保管方法は「紙のまま保管」が5割—アドビ調査
IT関連
2023-02-09 22:59
「ITエンジニア本大賞2023」投票開始。12月11日締め切り、来年1月下旬にベスト10発表予定
書評
2022-11-21 23:09
長い歴史を持つ自律走行車用レーダーの機能向上を目指すOculiiが60億円調達
モビリティ
2021-05-18 06:46
ヴァージン・ギャラクティック初の旅客機が宇宙へ離陸する様子をライブで観よう!グループ創設者ブランソン氏搭乗
宇宙
2021-07-12 00:01