重點摘要：進階 RAG 技術：圖解總覽¶

TL;DR¶

系統性整理 2023 年各種進階 RAG 檢索與生成技術及其實作。

核心問題¶

多數教學只挑一兩種 RAG 技巧深入講解，缺乏全貌；且 LlamaIndex 與 LangChain 文件龐雜難以入門。本文旨在系統化盤點關鍵進階 RAG 技術，並附上（多以 LlamaIndex 為主的）實作參考，協助開發者快速掌握全景。

關鍵發現 / 數據¶

Encoder 微調（bge-large-en-v1.5）僅帶來約 2% 檢索品質提升，提升有限但對窄領域資料集仍值得。
Cross-encoder 重排序微調使 pairwise 分數提升約 4%。
LLM 微調（用 GPT-4 蒸餾至 GPT-3.5-turbo）使 faithfulness 指標提升約 5%。
Meta 的 RA-DIT（同時微調 LLM 與 Retriever）在知識密集任務提升約 5%。
Chunk size 受 embedding 模型上限約束：BERT 系約 512 tokens，OpenAI ada-002 達 8191 tokens。

方法亮點¶

階層式索引 / 上下文擴充：以小 chunk 檢索提升精度，再用 Sentence Window 或 Auto-merging（Parent Document）擴大上下文供 LLM 推理。
Fusion / Hybrid 檢索：結合 BM25 稀疏檢索與向量語意檢索，用 Reciprocal Rank Fusion (RRF) 重排。
Query 轉換與路由：子查詢分解、step-back prompting、query rewrite，及 LLM 決策式 Query Routing。
多文件 Agent 架構：每份文件配一 agent（向量 + 摘要索引），上層 top agent 負責路由與綜合，可跨文件比較實體。

對我的研究有用嗎？¶

Query Routing 提及可在向量庫、圖資料庫、關聯式 DB 間做 LLM 決策路由，正是 GraphRAG 多源異構檢索的關鍵切入點。階層式「摘要索引 + chunk 索引」與多文件 Agent 的跨文件實體比較，概念上可對應到知識圖譜的階層與跨節點推理。RAG triad 評估框架（context relevance、groundedness、answer relevance）也可直接套用於 GraphRAG 評測。

評語¶

適合入門者建立全景地圖；屬科普整理而非實證研究，數據多引自他人教學、缺嚴謹 benchmark，且未涉及圖譜，值得快讀不必深讀。