重點摘要:GraphRAG 真的勝過 RAG 嗎?¶
TL;DR¶
教科書頁級問答中,傳統向量 RAG 在答案品質上仍勝過 GraphRAG。
核心問題¶
業界常爭論 GraphRAG 是否真比傳統 RAG 更強、強多少。本研究以嚴謹的「頁級教科書檢索問答」設定切入,實測比較兩者在檢索準確率與答案生成品質上的差異。
關鍵發現 / 數據¶
- 自建 benchmark:以數學教科書《An Infinite Descent into Pure Mathematics》經 GPT Vision OCR 後,從 628 題人工篩選為 477 題(含問題、答案、來源頁碼)。
- 檢索準確率:GraphRAG 表現優異,以 o3-mini 達 0.914,與最佳 RAG 模型的 Top-3 相當。
- 答案 F1:GraphRAG 落後多數 embedding RAG 設定。
- 主因是冗餘:GraphRAG 抓取相關實體而非單一最相關頁面,引入雜訊稀釋了答案品質。
- 結論:頁級數學教科書問答,傳統 embedding RAG 目前是更佳選擇。
方法亮點¶
- 沿用 Microsoft Research 的 GraphRAG pipeline:實體/關係抽取 → 建知識圖譜 → 圖檢索生成。
- 改良可追溯性:為每個實體與文本 chunk 標註
document_ids、entity_ids,並加入include_document_ids參數,使檢索項可回溯到確切頁碼。 - 雙指標評估:Retrieval Page Accuracy(檢索命中)與 Answer Similarity F1(詞重疊精確率/召回率平衡)。
- 測試 5 種 embedding 模型(如 voyage-3-large、nv-embed-v2)作 RAG 基線。
對我的研究有用嗎?¶
作者點出關鍵錯配:任務粒度是「頁對頁」,但 GraphRAG 的圖是「概念對概念」,這種 granularity gap 值得 GraphRAG 研究者警惕。其建議——建構頁面圖(node=頁,edge=章節結構/公式依賴/跨頁引用),並僅在低信心時擴展鄰域以控雜訊與成本——對 GraphRAG 設計很有啟發。評估面也提醒應超越 hit/F1,納入「教學充分性」與「引用穩健性」。
評語¶
值得快讀。觀點清晰、實驗具體,但屬單一資料集的小型 benchmark,結論泛化性有限,且 GraphRAG 未針對頁級任務調優,比較略偏不公平。