重點摘要：GraphRAG 真的勝過 RAG 嗎？¶

TL;DR¶

教科書頁級問答中，傳統向量 RAG 在答案品質上仍勝過 GraphRAG。

核心問題¶

業界常爭論 GraphRAG 是否真比傳統 RAG 更強、強多少。本研究以嚴謹的「頁級教科書檢索問答」設定切入，實測比較兩者在檢索準確率與答案生成品質上的差異。

關鍵發現 / 數據¶

自建 benchmark：以數學教科書《An Infinite Descent into Pure Mathematics》經 GPT Vision OCR 後，從 628 題人工篩選為 477 題（含問題、答案、來源頁碼）。
檢索準確率：GraphRAG 表現優異，以 o3-mini 達 0.914，與最佳 RAG 模型的 Top-3 相當。
答案 F1：GraphRAG 落後多數 embedding RAG 設定。
主因是冗餘：GraphRAG 抓取相關實體而非單一最相關頁面，引入雜訊稀釋了答案品質。
結論：頁級數學教科書問答，傳統 embedding RAG 目前是更佳選擇。

方法亮點¶

沿用 Microsoft Research 的 GraphRAG pipeline：實體/關係抽取 → 建知識圖譜 → 圖檢索生成。
改良可追溯性：為每個實體與文本 chunk 標註 document_ids、entity_ids，並加入 include_document_ids 參數，使檢索項可回溯到確切頁碼。
雙指標評估：Retrieval Page Accuracy（檢索命中）與 Answer Similarity F1（詞重疊精確率/召回率平衡）。
測試 5 種 embedding 模型（如 voyage-3-large、nv-embed-v2）作 RAG 基線。

對我的研究有用嗎？¶

作者點出關鍵錯配：任務粒度是「頁對頁」，但 GraphRAG 的圖是「概念對概念」，這種 granularity gap 值得 GraphRAG 研究者警惕。其建議——建構頁面圖（node=頁，edge=章節結構/公式依賴/跨頁引用），並僅在低信心時擴展鄰域以控雜訊與成本——對 GraphRAG 設計很有啟發。評估面也提醒應超越 hit/F1，納入「教學充分性」與「引用穩健性」。

評語¶

值得快讀。觀點清晰、實驗具體，但屬單一資料集的小型 benchmark，結論泛化性有限，且 GraphRAG 未針對頁級任務調優，比較略偏不公平。