【要約】RAGの精度が出ない3つの原因と、Golden Setで改善サイクルを回す方法 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
RAGの精度改善が「感覚的な判断」に留まっている。具体的には以下の課題がある。
- ・チャンキングが粗く、文脈の断絶や情報の混入が発生している。
- ・ベクトル検索のみに依存し、固有名詞や型番の検索に失敗している。
- ・評価指標がなく、施策の効果検証や回帰テストが不可能である。
- ・プロンプト調整に時間を費やし、検索品質の改善を疎かにしている。
// Approach
以下の4ステップで改善サイクルを構築する。
1.チャンキングの最適化
- ・
RecursiveCharacterTextSplitterを活用。 - ・セマンティックな境界を尊重し、
chunk_overlapを設定。
2.検索精度の高度化
- ・ハイブリッド検索(Vector + BM25)を導入。
- ・RRF(Reciprocal Rank Fusion)でスコアをマージ。
- ・リランキング(Cross-Encoder等)でコンテキストを精査。
3.定量評価基盤の構築
- ・Golden Set(50〜100問)を作成。
- ・RAGASを用い、Faithfulness、Answer Relevancy、Context Recallを計測。
4.実験管理の自動化
- ・W&B(Weights & Biases)でパラメータとスコアを記録。
// Result
定量的な指標に基づき、問題の所在を特定可能になる。Faithfulnessが低ければ幻覚、Context Recallが低ければ検索の問題と即座に判断できる。W&Bによるログ管理により、2週間スプリントでの継続的な精度向上と、パラメータ変更の影響可視化を実現する。
Senior Engineer Insight
> RAGの精度向上は検索設計が8割。プロンプト調整に逃げるのは悪手。チャンキングや検索アルゴリズムの改善こそが本質。Golden Set作成は初期投資として必須。これなしでは改善は「調整」に過ぎない。RAGASによる自動評価とW&Bによる実験管理の導入は、開発速度とスケーラビリティを確保するための必須要件である。評価の仕組みを後回しにするプロジェクトは、本番化に失敗する。