Dev Classmethod Jp Why Rag Fails Aws Verification
RAGが正しい証拠を持っていても誤答するSAEGを回避する方法をAWS Bedrockで試してみた
- URL: https://dev.classmethod.jp/articles/why-rag-fails-aws-verification/
- 日付: 2026-06-11
- Tier: Tier 2
- 要旨: RAGが正しい証拠を持っていても誤答するSAEG(Superficial Answer from Evidence Grounding)問題を、AWS BedrockのAPIで「split call」(2段階呼び出し)で緩和する実験。2WikiMultiHopQAで+14.0pp、MuSiQueで+12.0ppの正答率改善を確認。
詳細
SAEGとは:質問を深く処理する前に証拠の表層パターンに飛びつく失敗パターン。論文(arxiv 2605.14192)ではCircuit Tracingで帰属グラフとして可視化。
split callの設計:
- Call 1(証拠なし):質問だけ渡し、正答に必要な条件を先に列挙させる
- Call 2(条件リスト+文書):Call 1の条件を参照しながら証拠から回答させる
実験結果(Meta Llama 3.1 8B, Bedrock, 50問サンプル):
| データセット | ベースライン | split call | 改善幅 |
|---|---|---|---|
| HotpotQA | 70.0% | 70.0% | ±0.0pp |
| 2WikiMultiHopQA | 50.0% | 64.0% | +14.0pp |
| MuSiQue | 40.0% | 52.0% | +12.0pp |
entity-bridging型(中間エンティティを経由する多段推論)で改善が顕著。comparison型(AとBを比較する問い)では逆効果になるケースあり。「理由に基づいた改善」を実測で示した点が価値。