跳轉到

關鍵術語對照表

英文 繁中譯名 文章中的脈絡 / 簡短說明
Graph RAG / GraphRAG 圖譜檢索增強生成 不把文字塞進向量庫靠語意相似度檢索,而是建立知識圖譜並在查詢時對圖譜進行檢索
Knowledge Graph 知識圖譜 由實體與其關係構成的結構化網絡,作為檢索基礎
Entity-Relation Triple 實體—關係三元組 從原始文字抽取出的結構化單元,如 (Tesla, headquartered_in, Austin)
Entity Extraction / Detection 實體抽取/偵測 從文字中找出實體,本文指其「大致已解決」(Entity F1 0.78–0.91)
Relation Extraction 關係抽取 抽取實體間關係並組成三元組,本文指出這是真正的瓶頸
Vector Store 向量資料庫 傳統 RAG 儲存文字 chunk 並以語意相似度檢索的方式
Local / Open-Weight LLM 本地/開放權重大型語言模型 因資料不能離開基礎設施,需在自有 GPU 上運行的 7–9B 模型
Triple F1 三元組 F1 分數 衡量三元組抽取品質的核心指標,最佳僅 0.732
Entity F1 實體 F1 分數 衡量實體偵測品質的指標
Schema Conformance 結構符合度 模型是否產出有效可解析(符合 schema)的輸出之比率
Few-Shot Prompting 少樣本提示 在提示中附上數個範例,提升品質但降低可靠度且拉長 context
Schema-in-Prompt 提示內附結構 在指令中附上完整 JSON schema,本文推薦為最佳預設策略
Fuzzy Matching 模糊匹配 評估管線中容忍語意等價差異的比對方法
Token-Sort Ratio 詞元排序比率 實體匹配採用、閾值設 75 的字串相似度演算法
Predicate Canonicalization 謂詞正規化 將語意等價的關係名(約 75 組同義詞)映射為同一意義
Snake_case Predicate 蛇形命名謂詞 benchmark 期望的簡潔謂詞格式,與模型產出的冗長自然語言謂詞不符
Fine-Tuning / SFT 微調/監督式微調 以監督範例教模型穩定產出結構化抽取
QLoRA 量化低秩適配微調 4-bit 量化基礎權重加 LoRA adapter,於消費級 GPU 上微調
LoRA Adapter (r=64, alpha=128) 低秩適配器 加在 attention 與前饋投影層上的可訓練參數
REBEL REBEL 關係抽取資料集 Babelscape 以 Wikipedia 對齊 Wikidata 製作的銀標三元組資料集
Silver-Labeled Dataset 銀標資料集 自動對齊產生(非人工黃金標註)的訓練資料
Knowledge Base Completion 知識庫補全 「這些實體有哪些已知事實」的抽取取向(REBEL 的取向)
Text-Grounded Relation Extraction 文本根據的關係抽取 「這段文字實際表達哪些關係」的抽取取向,更適合 Graph RAG
User-Turn Masking 使用者輪次遮罩 訓練損失只計算助理輸出(JSON),聚焦抽取任務
Sequence Packing 序列打包 將多個短樣本打包進單一序列以提升 GPU 利用率
vLLM vLLM 推論引擎 用於模型推論的服務框架