跳轉到

重點摘要:為什麼 LLM 在知識圖譜抽取上會失敗(以及什麼方法才有效)

TL;DR

生成式 LLM 不適合結構化 KG 抽取,應先建可驗證的「斷言圖」再策略性擴增。

核心問題

即使如 GPT-5 等先進模型,從非結構化文本建立可靠知識圖譜仍困難重重。問題不只是幻覺,而是語言模型的生成本質與結構化知識抽取需求之間存在根本不匹配,這對 RAG 與 GraphRAG 生產系統的結構完整性至關重要。

關鍵發現 / 數據

  • 管線誤差累積:90% 準確率的實體辨識器串接 90% 的關係抽取器,整體只剩 81%,尚未計入指代消解的額外誤差。
  • 即使在單一段落內,模型也會把「Party A」與「the aforementioned party」誤判為不同實體,造成圖譜碎片化。
  • 過度切塊(chunk 到句子層級)會破壞跨句的實體關聯,並因多次推理而成本上升
  • 抽取出的斷言圖普遍存在三大缺陷:孤立組件、缺漏隱含知識、缺乏與外部知識庫對齊。
  • 判別式(BERT 類)模型可在低階硬體運行,GPT-5 則需大量算力。

方法亮點

  • 判別式 vs 生成式:NER 可框定為 token 分類,免去生成步驟,準確且高效,但需領域微調;生成式靠 prompt/few-shot 彈性高但較不準。
  • 斷言知識圖譜(asserted KG):只含文本明示資訊的可驗證基準,便於除錯與可解釋性。
  • 端到端優於管線:單一模型一次生成完整圖結構,避免誤差累積。
  • 五種擴增策略:分類學階層(is-a)、規則式推理(多跳)、連結預測/實體對齊、來源上下文保留(溯源節點或 metadata)、主題聚類(含 GraphRAG 社群偵測)。

對我的研究有用嗎?

「斷言圖 → 策略性擴增」的兩階段框架對 GraphRAG 研究很有參考價值,明確區分 ground truth 與推論/外部知識,利於可解釋與除錯。管線誤差累積的量化論證、以及「擴增策略應由下游任務決定」的觀點值得借鏡,作者並以 GNN 分類任務驗證了受限關係詞表的擴增有效性。

評語

值得一讀的概念整理,框架清晰、實務導向;但偏入門科普且為系列首篇(實作留待 Part 2),數據多為引用而非自身 benchmark,深度有限。