Allganize、日本語RAGの性能評価「Allganize RAG Leaderboard」を公開

今回は「Allganize、日本語RAGの性能評価「Allganize RAG Leaderboard」を公開」についてご紹介します。

関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。

本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。


 生成AI・大規模言語モデル(LLM)ソリューションを提供するAllganize Japanは、日本語RAGの性能を評価したLeaderboard(性能表)「Allganize RAG Leaderboard」を公開した。このLeaderboardは、AIに特化したプラットフォームである「Hugging Face」で閲覧できる。

 検索拡張生成(RAG)は、社内ドキュメントや特定情報から信頼できるデータを検索・抽出し、そのデータに基づいてLLMに回答させる技術。企業の内部情報や特定情報を生成AI・LLMで活用する際に重要となる技術であり、業務効率化や生産性向上に貢献するが、RAGの実装方法によって回答精度が大きく変わるため課題となっている。

 Allganize RAG Leaderboardは、主要なRAGソリューションの日本語性能を客観的な手法で評価した性能表。特に、日本企業が扱うドキュメントは図表などを多数含む複雑な文書が多く、業種ドメインごとにドキュメント形態や内容も異なるため、回答の難易度が高い傾向にあるという。

 Leaderboardでは、RAGソリューションの「Parser」「Retriever」「Generation」という3つの機能要素を評価している。Parserは、文書から文字・図・表などを抽出し、読みやすいフォーマットに変更する。Retrieverは、企業が保有する膨大なデータの中から、ユーザーの質問の回答となる情報を抽出する。Generationは、Retrieverで抽出した情報と学習データに基づいてLLMが回答を生成する。

 また業種によってドキュメントの傾向が異なるため、「金融」「情報通信」「製造」「公共」「流通・小売」という5つの業種ドメインのドキュメントに対して、RAGの性能を評価している。各ドメインに12〜14のドキュメントを用意し、ドメインごとに60個の質問を行った。さらに実際の業務で利用するドキュメントと同様、図表を含むドキュメントを使用して評価したという。

 さらに、あらかじめ質問に対する正解回答を用意し、質問に対してRAGソリューションで生成した回答について、4つのLLM Eval(測定ツール)を用いて評価した。

 なお、今回評価対象としたRAGソリューションは、Allganizeの提供するRAGソリューション「Alli」のほか、「LangChain」「OpenAI Assistant」「Cohere」で、今後も評価対象を追加予定だという。

COMMENTS


Recommended

TITLE
CATEGORY
DATE
Google、初オリジナルモバイルSoC「Google Tensor」発表 「Pixel 6」に搭載
製品動向
2021-08-04 13:50
内田洋行、オリンパスの本社移転に向けてオフィス利用状況を可視化
IT関連
2024-01-20 14:31
第43回:列伝3人目「武闘派型ひとり情シス」
IT関連
2022-08-31 15:04
三井住友ファイナンス&リース、リース契約の請求・支払関連業務の帳票を電子化
IT関連
2021-06-25 12:49
オラクルのマルチクラウド戦略が奏功するカギは何か
IT関連
2022-11-18 14:38
2024年のサイバーセキュリティ予測–AI、クラウド、CISOの変化など
IT関連
2024-01-06 16:18
フラグシップ並みスペックで5万円強の「Pixel 5a(5G)」は買いか? :Googleさん(1/4 ページ)
くらテク
2021-08-19 23:38
NII、学術情報ネットワークの情報通信基盤にジュニパーネットワークスの技術採用
IT関連
2022-10-05 11:41
マッチングサービスBumbleが1株43ドルでIPO
ネットサービス
2021-02-12 01:27
東北・北海道新幹線「はやぶさ」すべての1号車が「リモートワーク推奨車両」に、平日限定
モビリティ
2021-06-09 12:26
Windows Subsystem for Linux(WSL)に新機能。使用メモリや仮想ディスクの自動縮退、LAN経由でWSLへ直接アクセス可能など
Linux
2023-09-20 07:41
IT系上場企業の平均年収を業種別にみてみた 2024年版[前編] ~ ネットベンチャー、ゲーム、メディア系
働き方
2024-07-09 17:11
Twitter、返信に「反対票」(dislikeではない)をつけるテストを開始
アプリ・Web
2021-07-23 08:45
第4回:多様化する生成AIモデルの統合管理とその注意点–戦略的アプローチと統合管理の重要性
IT関連
2023-12-22 09:23