跳轉到

重點摘要:GraphRAG 真的勝過 RAG 嗎?

TL;DR

教科書頁級問答中,傳統向量 RAG 在答案品質上仍勝過 GraphRAG。

核心問題

業界常爭論 GraphRAG 是否真比傳統 RAG 更強、強多少。本研究以嚴謹的「頁級教科書檢索問答」設定切入,實測比較兩者在檢索準確率與答案生成品質上的差異。

關鍵發現 / 數據

  • 自建 benchmark:以數學教科書《An Infinite Descent into Pure Mathematics》經 GPT Vision OCR 後,從 628 題人工篩選為 477 題(含問題、答案、來源頁碼)。
  • 檢索準確率:GraphRAG 表現優異,以 o3-mini 達 0.914,與最佳 RAG 模型的 Top-3 相當。
  • 答案 F1:GraphRAG 落後多數 embedding RAG 設定。
  • 主因是冗餘:GraphRAG 抓取相關實體而非單一最相關頁面,引入雜訊稀釋了答案品質。
  • 結論:頁級數學教科書問答,傳統 embedding RAG 目前是更佳選擇。

方法亮點

  • 沿用 Microsoft Research 的 GraphRAG pipeline:實體/關係抽取 → 建知識圖譜 → 圖檢索生成。
  • 改良可追溯性:為每個實體與文本 chunk 標註 document_idsentity_ids,並加入 include_document_ids 參數,使檢索項可回溯到確切頁碼。
  • 雙指標評估:Retrieval Page Accuracy(檢索命中)與 Answer Similarity F1(詞重疊精確率/召回率平衡)。
  • 測試 5 種 embedding 模型(如 voyage-3-large、nv-embed-v2)作 RAG 基線。

對我的研究有用嗎?

作者點出關鍵錯配:任務粒度是「頁對頁」,但 GraphRAG 的圖是「概念對概念」,這種 granularity gap 值得 GraphRAG 研究者警惕。其建議——建構頁面圖(node=頁,edge=章節結構/公式依賴/跨頁引用),並僅在低信心時擴展鄰域以控雜訊與成本——對 GraphRAG 設計很有啟發。評估面也提醒應超越 hit/F1,納入「教學充分性」與「引用穩健性」。

評語

值得快讀。觀點清晰、實驗具體,但屬單一資料集的小型 benchmark,結論泛化性有限,且 GraphRAG 未針對頁級任務調優,比較略偏不公平。