Layerx Rag Anything Multimodal Knowledge Graph
マルチモーダル知識グラフ「RAG-Anything」を用いた複雑な実世界ドキュメントの理解
- URL: https://tech.layerx.co.jp/entry/2026/06/09/181025
- 日付: 2026-06-09
- Tier: Tier 3
- 要旨: LayerX の R&D インターンによる RAG-Anything(マルチモーダル GraphRAG フレームワーク)の実装検証レポート。テキスト・画像・表・数式を知識グラフ上に統合し、図表の視覚情報を含む質問にも根拠追跡可能な回答を生成できることを示した。
詳細
従来の RAG が抱える 3 つの壁
- 視覚情報の欠落: テキスト変換時にグラフや図表の視覚的意味が失われる
- 散在情報への弱さ: 複数ページをまたぐ多段階推論が困難
- ハルシネーション: 参照元を明示させるとモデルが本来の抽出性能を失う
RAG-Anything のアーキテクチャ
- MinerU でドキュメントをコンポーネント(テキスト/画像/表/数式)に分離
- 2 種類の知識グラフを並行構築:
- クロスモーダル知識グラフ: VLM で非テキスト要素を説明文化し、周囲テキストと
belongs_toエッジで接続 - テキストベース知識グラフ: 固有表現抽出・関係性抽出による従来の GraphRAG
- クロスモーダル知識グラフ: VLM で非テキスト要素を説明文化し、周囲テキストと
- 2 グラフを概念マッチングで統合し、全ノードをベクトル化
検索と回答生成
- クエリ分析でモダリティ(図/表/数式など)を識別し、構造的ナビゲーション + セマンティック検索のハイブリッド検索
- 該当ノードに対応する生の画像データをピンポイント取得し、VLM に渡して回答生成
- 根拠となったノード・エッジ・画像が追跡可能 → ハルシネーション検知に有効
精度評価(DocBench / MMLongBench)
- 100 ページ超の長大ドキュメントで MMGraphRAG 比 13 ポイント以上の精度向上を確認
- アブレーション研究で性能の核はデュアルグラフ構造にあることを示唆
課題
- 約 30 ページのドキュメントのインデックス構築に 30〜60 分(gemini-3-flash-preview 使用)
- ルールベースへの処理移行など最適化が実用化に必要