重點摘要:進階 RAG 技術:圖解總覽¶
TL;DR¶
系統性整理 2023 年各種進階 RAG 檢索與生成技術及其實作。
核心問題¶
多數教學只挑一兩種 RAG 技巧深入講解,缺乏全貌;且 LlamaIndex 與 LangChain 文件龐雜難以入門。本文旨在系統化盤點關鍵進階 RAG 技術,並附上(多以 LlamaIndex 為主的)實作參考,協助開發者快速掌握全景。
關鍵發現 / 數據¶
- Encoder 微調(bge-large-en-v1.5)僅帶來約 2% 檢索品質提升,提升有限但對窄領域資料集仍值得。
- Cross-encoder 重排序微調使 pairwise 分數提升約 4%。
- LLM 微調(用 GPT-4 蒸餾至 GPT-3.5-turbo)使 faithfulness 指標提升約 5%。
- Meta 的 RA-DIT(同時微調 LLM 與 Retriever)在知識密集任務提升約 5%。
- Chunk size 受 embedding 模型上限約束:BERT 系約 512 tokens,OpenAI ada-002 達 8191 tokens。
方法亮點¶
- 階層式索引 / 上下文擴充:以小 chunk 檢索提升精度,再用 Sentence Window 或 Auto-merging(Parent Document)擴大上下文供 LLM 推理。
- Fusion / Hybrid 檢索:結合 BM25 稀疏檢索與向量語意檢索,用 Reciprocal Rank Fusion (RRF) 重排。
- Query 轉換與路由:子查詢分解、step-back prompting、query rewrite,及 LLM 決策式 Query Routing。
- 多文件 Agent 架構:每份文件配一 agent(向量 + 摘要索引),上層 top agent 負責路由與綜合,可跨文件比較實體。
對我的研究有用嗎?¶
Query Routing 提及可在向量庫、圖資料庫、關聯式 DB 間做 LLM 決策路由,正是 GraphRAG 多源異構檢索的關鍵切入點。階層式「摘要索引 + chunk 索引」與多文件 Agent 的跨文件實體比較,概念上可對應到知識圖譜的階層與跨節點推理。RAG triad 評估框架(context relevance、groundedness、answer relevance)也可直接套用於 GraphRAG 評測。
評語¶
適合入門者建立全景地圖;屬科普整理而非實證研究,數據多引自他人教學、缺嚴謹 benchmark,且未涉及圖譜,值得快讀不必深讀。