Dev Classmethod Jp Why Rag Fails Aws Verification

RAGが正しい証拠を持っていても誤答するSAEGを回避する方法をAWS Bedrockで試してみた

URL: https://dev.classmethod.jp/articles/why-rag-fails-aws-verification/
日付: 2026-06-11
Tier: Tier 2
要旨: RAGが正しい証拠を持っていても誤答するSAEG（Superficial Answer from Evidence Grounding）問題を、AWS BedrockのAPIで「split call」（2段階呼び出し）で緩和する実験。2WikiMultiHopQAで+14.0pp、MuSiQueで+12.0ppの正答率改善を確認。

詳細

SAEGとは：質問を深く処理する前に証拠の表層パターンに飛びつく失敗パターン。論文（arxiv 2605.14192）ではCircuit Tracingで帰属グラフとして可視化。

split callの設計：

実験結果（Meta Llama 3.1 8B, Bedrock, 50問サンプル）：

データセット	ベースライン	split call	改善幅
HotpotQA	70.0%	70.0%	±0.0pp
2WikiMultiHopQA	50.0%	64.0%	+14.0pp
MuSiQue	40.0%	52.0%	+12.0pp

entity-bridging型（中間エンティティを経由する多段推論）で改善が顕著。comparison型（AとBを比較する問い）では逆効果になるケースあり。「理由に基づいた改善」を実測で示した点が価値。