コンテンツにスキップ
Classmethod Enterprise Rag Evaluation

社内情報管理 RAG の評価設計 — EnterpriseRAG-Bench から学ぶ

要約

企業内ナレッジを対象にした RAG 評価ベンチマーク「EnterpriseRAG-Bench」(2026年公開)を題材に、社内 RAG の評価環境をどう設計すべきかを解説。主な論点:

  1. 社内情報は複数の業務システム(Slack/Gmail/Jira/Confluence/HubSpot等)に分散しており、単一文書検索では測れない能力が必要
  2. 既存ベンチマークは公開Webベースで社内情報の「散らかり方」を再現できない
  3. 評価用仮データベースは FAQ/マニュアルだけでなく、コミュニケーションデータを多めに含め、文書間のつながりを持たせ、意図的なノイズ(誤配置・類似文書・矛盾情報)を入れる必要がある
  4. 質問セットには「複数文書をまたぐ質問」「答えが存在しない質問」「矛盾情報に対する質問」「社内用語を使った質問」を含めることが重要