Layerx Rag Anything Multimodal Knowledge Graph

マルチモーダル知識グラフ「RAG-Anything」を用いた複雑な実世界ドキュメントの理解

URL: https://tech.layerx.co.jp/entry/2026/06/09/181025
日付: 2026-06-09
Tier: Tier 3
要旨: LayerX の R&D インターンによる RAG-Anything（マルチモーダル GraphRAG フレームワーク）の実装検証レポート。テキスト・画像・表・数式を知識グラフ上に統合し、図表の視覚情報を含む質問にも根拠追跡可能な回答を生成できることを示した。

詳細

従来の RAG が抱える 3 つの壁

RAG-Anything のアーキテクチャ

MinerU でドキュメントをコンポーネント（テキスト/画像/表/数式）に分離
2 種類の知識グラフを並行構築:
- クロスモーダル知識グラフ: VLM で非テキスト要素を説明文化し、周囲テキストと belongs_to エッジで接続
- テキストベース知識グラフ: 固有表現抽出・関係性抽出による従来の GraphRAG
2 グラフを概念マッチングで統合し、全ノードをベクトル化

検索と回答生成

精度評価（DocBench / MMLongBench）

課題