跳轉到

重點摘要:GraphRAG 解析:Neo4j Cypher AI + 知識圖譜 RAG 指南

TL;DR

GraphRAG 用圖譜關係擴展檢索脈絡,提升多跳推理與答案可解釋性。

核心問題

LLM 易產生看似自信卻錯誤的幻覺,需以真實資料「接地」。傳統向量 RAG 只取語意相似的扁平片段,常漏掉相隔一兩跳的關鍵關聯。GraphRAG 透過圖結構補上「缺失的橋樑」,讓答案更正確且可追溯。

關鍵發現 / 數據

  • Neo4j 2024 電影圖譜示範:約 1,000 萬部作品、1,300 萬人物、1.06 億關係,其中 130 萬部含劇情摘要可嵌入。
  • 2025 年 12 月 Neo4j 推出 ai.text.* 系列 Cypher 程序,將 LLM 呼叫移入資料庫,移除過去需外部程式碼的「Almost」限制。
  • 嵌入批次有 300,000 token 上限,範例採每批 400 頁切分;檢索時 over-fetch top 20 再精選 top 2。
  • arXiv 多代理 Text-to-Cypher 框架在 CypherBench 上,平均提升 Gemini 2.5 Pro +10.23%、GPT-4o +6.79%、Qwen3 Coder +7.67%、GigaChat 2 MAX +10.01%。
  • Palme 命案示範中,系統對「誰殺了 Palme」回答「我不知道」並引用 wiki 頁面,展現認知誠實。

方法亮點

  • 兩種互補模式:向量種子→圖遍歷擴展脈絡;以及 LLM 將自然語言轉 Cypher 查詢再翻譯回答。
  • 檢索結合最短路徑(0–4 跳)擷取橋接脈絡,prompt 強制「僅依脈絡作答、不支持就說不知道」。
  • 多代理 agentic workflow:七種角色(生成、評估、實體抽取、驗證、回饋彙整等),用 Levenshtein 相似度 + LLM 排序修正幻覺的 schema 元素。

對我的研究有用嗎?

高度相關。多代理迭代驗證 Text-to-Cypher 的設計(實體比對、結構化回饋迴圈)對提升 LPG 查詢可靠度很有參考價值,補足了相對於 RDF/SPARQL 較少被探討的領域。最短路徑橋接脈絡與「強制接地 + 允許不知道」的 prompt 策略,也值得用於 GraphRAG 可解釋性與幻覺抑制實驗。

評語

入門導向、整合多來源且務實(含 hype check),值得快速一讀;但偏教學概覽,benchmark 細節依賴二手摘要,深度與嚴謹度有限。