Allganize、日本語RAGの性能評価「Allganize RAG Leaderboard」を公開
今回は「Allganize、日本語RAGの性能評価「Allganize RAG Leaderboard」を公開」についてご紹介します。
関連ワード (ソフトウェア等) についても参考にしながら、ぜひ本記事について議論していってくださいね。
本記事は、ZDNet Japan様で掲載されている内容を参考にしておりますので、より詳しく内容を知りたい方は、ページ下の元記事リンクより参照ください。
生成AI・大規模言語モデル(LLM)ソリューションを提供するAllganize Japanは、日本語RAGの性能を評価したLeaderboard(性能表)「Allganize RAG Leaderboard」を公開した。このLeaderboardは、AIに特化したプラットフォームである「Hugging Face」で閲覧できる。
検索拡張生成(RAG)は、社内ドキュメントや特定情報から信頼できるデータを検索・抽出し、そのデータに基づいてLLMに回答させる技術。企業の内部情報や特定情報を生成AI・LLMで活用する際に重要となる技術であり、業務効率化や生産性向上に貢献するが、RAGの実装方法によって回答精度が大きく変わるため課題となっている。
Allganize RAG Leaderboardは、主要なRAGソリューションの日本語性能を客観的な手法で評価した性能表。特に、日本企業が扱うドキュメントは図表などを多数含む複雑な文書が多く、業種ドメインごとにドキュメント形態や内容も異なるため、回答の難易度が高い傾向にあるという。
Leaderboardでは、RAGソリューションの「Parser」「Retriever」「Generation」という3つの機能要素を評価している。Parserは、文書から文字・図・表などを抽出し、読みやすいフォーマットに変更する。Retrieverは、企業が保有する膨大なデータの中から、ユーザーの質問の回答となる情報を抽出する。Generationは、Retrieverで抽出した情報と学習データに基づいてLLMが回答を生成する。
また業種によってドキュメントの傾向が異なるため、「金融」「情報通信」「製造」「公共」「流通・小売」という5つの業種ドメインのドキュメントに対して、RAGの性能を評価している。各ドメインに12〜14のドキュメントを用意し、ドメインごとに60個の質問を行った。さらに実際の業務で利用するドキュメントと同様、図表を含むドキュメントを使用して評価したという。
さらに、あらかじめ質問に対する正解回答を用意し、質問に対してRAGソリューションで生成した回答について、4つのLLM Eval(測定ツール)を用いて評価した。
なお、今回評価対象としたRAGソリューションは、Allganizeの提供するRAGソリューション「Alli」のほか、「LangChain」「OpenAI Assistant」「Cohere」で、今後も評価対象を追加予定だという。