RAGの検索をAIに任せたら精度が79%上がった

> Source: Zenn_Python

// Problem

従来のRAGは「クエリからベクトル検索を経てTop-Kを取得する」という固定フローに依存している。そのため、複数の情報を組み合わせる必要があるマルチホップ質問への対応が困難であり、質問の複雑さに応じた検索粒度や、キーワード検索と意味検索の動的な使い分けができないという課題があった。

// Approach

検索プロセスをエージェントによる自律的な判断へと移行させるA-RAGを提案。エージェントに対し、キーワード検索、セマンティック検索、特定チャンクの精読という3つのツールを提供し、質問の性質に応じて検索回数、手法、粒度を動的に選択させるアーキテクチャを採用した。

// Result

ベンチマークにおいて、GPT-5-mini使用時にマルチホップ質問の精度が最大79%向上した。また、エージェントが情報を選択的に取得することで、検索トークン数を約半分に削減することに成功。ただし、レイテンシは2〜5倍に増加し、モデルの推論能力に性能が強く依存するという特性も明らかになった。

Senior Engineer Insight

> 精度向上と引き換えにレイテンシが数倍に跳ね上がる点は、リアルタイム性が求められるプロダクション環境では致命的なトレードオフとなる。導入の是非は、単なる精度向上ではなく、マルチホップ質問の発生頻度と許容レイテンシのバランスで判断すべきだ。また、ローカルLLMでの運用は現時点では非現実的であり、高度なFunction Calling能力を持つ強力なモデルの選定が前提となる。リサーチや専門的な調査用途には極めて有効だが、FAQのような定型的な検索には過剰設計（Overengineering）となる懸念がある。