アマゾン、RAGを実装したAIの性能を比較する新しいベンチマークを提案

今回は「アマゾン、RAGを実装したAIの性能を比較する新しいベンチマークを提案」についてご紹介します。

関連ワード (CIO/経営等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 2024年は、企業で生成人工知能(AI)の活用が飛躍的に進む年になると、多くの観測筋が予測している。考えられる可能性の1つが、検索拡張生成(RAG)と呼ばれる手法の採用だ。RAGを利用すると、AIの大規模言語モデル(LLM)を、企業のファイルなど、組織の独自コンテンツが含まれるデータベースに接続できる。

 ただし、RAGはまだ新しい技術で、落とし穴もある。

 そのため、AmazonのAWSの研究者たちは新しい論文の中で、RAGが組織の独自コンテンツに関する質問にどれほど正しく回答できるかをテストする一連のベンチマークの策定を提案している。

 この論文は、ウィーンで現地時間7月21日から27日まで開催されるAIカンファレンス「The Forty-first International Conference on Machine Learning」(第41回機械学習国際会議)で発表される予定だ。

 論文の主執筆者であるGauthier Guinet氏とそのチームは、基本的な問題として、膨大な数のタスクでさまざまなLLMの能力を比較するベンチマークが多数存在するのに対し、特にRAGの分野では、「真実性」や「事実性」など多くの重要な性質に対して、「タスクに特化した包括的な評価」を下す「標準的な」測定手法がない点を挙げている。

 だがGuinet氏らは、自分たちの提案する自動化された手法によって、ある程度の統一性が生まれると考えて、次のように述べている。「われわれのアプローチは、各タスクに関連付けられた文書コーパスに合わせて多肢選択式の試験を自動生成することで、さまざまなRAGシステム間で標準化され、測定と解釈が可能なスコアリングを実現するものだ」

 この取り組みに着手するため、Guinet氏らは4つの組織の資料を利用して、質問と回答のペアを生成した。その資料とは、AWSのDevOpsに関するトラブルシューティングの文書、プレプリント論文投稿サーバーの「arXiv」に投稿された科学論文の要約、Q&Aサイトの「StackExchange」に投稿されていた質問、および上場企業の最高規制機関である米証券取引委員会(SEC)に提出された書類だ。

 次に、各LLMがどれだけ正解に近い回答を生成できるか評価するため、LLM用の多肢選択式テストを考案した。そして、2種類のオープンソースのLLMファミリー(フランス企業Mistral AIの「Mistral」とMetaの「Llama」)を対象に試験を実施した。

 大きな発見の1つは、優れたRAGアルゴリズムを利用すれば、LLMの規模を拡大するといった手法を用いるより、LLMを改善できるということだ。

 生成AIのために必要とされるリソースの急増が懸念される中で、これは重要な発見だ。より少ないリソースでより多くのことができるのなら、研究を続ける価値はある。また、規模の拡大が常に最善とされる現在のAIの常識が、具体的な問題の解決については必ずしも正しくないことを示唆している。

 もう1つ重要なことは、RAGアルゴリズムが正しく機能しない場合には、RAGが実装されておらず、クローズドでシンプルなLLMと比べて、LLMの性能が低下する可能性が明らかになったことだ。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
警察庁、中国の関与が疑われる日本国内へのサイバー攻撃に注意喚起。侵入手口など解説、CLI版VSCodeが悪用される例も
セキュリティ
2025-01-15 10:16
小田急、地域コミュニティー向けアプリの分析にOracle Cloud Infrastructureを採用
IT関連
2021-07-07 23:45
人事労務ソフト「SmartHR」、「従業員サーベイ」機能に自由記述回答要約機能を追加
IT関連
2023-07-11 08:19
人はなぜ“言わなくてもいいこと”を言ってしまうのか 「日本人の国民性調査」からネット炎上が止まらない背景を探る :小寺信良のIT大作戦(1/3 ページ)
トップニュース
2021-08-18 03:32
AWSジャパンと浜松医科大学が連携–医療ビッグデータの活用でスマートヘルスケアの実現へ
IT関連
2024-11-19 08:14
ビル管理のアイング、RPAで受注関連業務を効率化–コア業務の人員を強化
IT関連
2021-01-16 21:16
AIチップのGraphcoreが披露した3Dプロセッサー–"ウルトラインテリジェンス"マシンへの展望も
IT関連
2022-03-17 23:35
[速報]マイクロソフト、開発環境をまるごとクラウドPCとして用意できる「Dev Box」を発表。Microsoft Build 2022
Microsoft
2022-05-25 15:58
編集者の嗅覚を守りたい–戦略子会社トップに聞く、KADOKAWA出版事業のDX
IT関連
2023-12-01 13:29
「マネーフォワード ビジネスカード」に「あと払い機能」–事前チャージ不要で決済可能に
IT関連
2022-07-29 06:15
コネクテッドカーからデータ収集、匿名化するサービスのOtonomoがSPAC経由で上場へ
IT関連
2021-02-22 03:53
Slack、社外の人とDM可能に–「嫌がらせ」懸念の指摘で仕様修正も
IT関連
2021-03-25 16:13
京急油壺マリンパーク、9月末閉館 建物や設備の老朽化で
くらテク
2021-05-13 12:37
「Windows Admin Center」新プレビュー発表–多数の新機能
IT関連
2021-01-19 06:31