コンテンツにスキップ
Dev Classmethod Jp Why Rag Fails Aws Verification

RAGが正しい証拠を持っていても誤答するSAEGを回避する方法をAWS Bedrockで試してみた

  • URL: https://dev.classmethod.jp/articles/why-rag-fails-aws-verification/
  • 日付: 2026-06-11
  • Tier: Tier 2
  • 要旨: RAGが正しい証拠を持っていても誤答するSAEG(Superficial Answer from Evidence Grounding)問題を、AWS BedrockのAPIで「split call」(2段階呼び出し)で緩和する実験。2WikiMultiHopQAで+14.0pp、MuSiQueで+12.0ppの正答率改善を確認。

詳細

SAEGとは:質問を深く処理する前に証拠の表層パターンに飛びつく失敗パターン。論文(arxiv 2605.14192)ではCircuit Tracingで帰属グラフとして可視化。

split callの設計

  • Call 1(証拠なし):質問だけ渡し、正答に必要な条件を先に列挙させる
  • Call 2(条件リスト+文書):Call 1の条件を参照しながら証拠から回答させる

実験結果(Meta Llama 3.1 8B, Bedrock, 50問サンプル):

データセットベースラインsplit call改善幅
HotpotQA70.0%70.0%±0.0pp
2WikiMultiHopQA50.0%64.0%+14.0pp
MuSiQue40.0%52.0%+12.0pp

entity-bridging型(中間エンティティを経由する多段推論)で改善が顕著。comparison型(AとBを比較する問い)では逆効果になるケースあり。「理由に基づいた改善」を実測で示した点が価値。