| GraphRAG |
圖譜檢索增強生成 |
在向量 RAG 之上加一層結構,用知識圖譜讓 LLM 能跨文件推理 |
| RAG (Retrieval-Augmented Generation) |
檢索增強生成 |
標準流程:切塊、嵌入、依相似度檢索後餵給 LLM 生成答案 |
| Knowledge Graph |
知識圖譜 |
以實體為節點、關係為邊的結構,反映資訊跨文件的真實關聯 |
| Vector Embedding |
向量嵌入 |
用嵌入模型把每個文字塊轉成數值向量以捕捉語意 |
| Vector Space |
向量空間 |
語意相近的文字塊在此空間中彼此靠近 |
| Embedding Model |
嵌入模型 |
將文字塊轉換為數值向量的模型 |
| Chunk / Chunking |
文字塊 / 切塊 |
文件被切成片段後各自嵌入,彼此孤立缺乏連結 |
| Entity Extraction |
實體抽取 |
用 LLM 從每個 chunk 讀出人、公司、技術、法案等實體 |
| Entity / Relationship (Node / Edge) |
實體 / 關係(節點 / 邊) |
實體成為圖節點、關係成為連接的邊 |
| Triplet (entity-relation-entity) |
三元組 |
抽取出的「來源實體—關係—目標實體」結構,如 (OpenAI, DEFENDANT_IN, NYT v. OpenAI) |
| Ontology |
本體論(圖譜結構綱要) |
定義允許抽取的實體型別與關係型別的 schema |
| Community Detection |
社群偵測 |
將相關實體分群成 cluster,Microsoft 方法的額外步驟 |
| Community Summarization |
社群摘要 |
為每個 cluster 由 LLM 生成摘要,查詢時改查摘要 |
| Hierarchical Leiden Algorithm |
階層式 Leiden 演算法 |
Graspologic 用來找實體群集的社群偵測演算法 |
| Sensemaking |
意義建構 |
Microsoft Research 對跨大量資訊理解連結、模式與主題的稱呼 |
| Indexing / Querying (Phases) |
索引 / 查詢(兩階段) |
GraphRAG 的兩大階段:建圖與從圖檢索 |
| LlamaIndex |
LlamaIndex |
編排整條 GraphRAG 流程的框架,原生支援度最高 |
| Graspologic |
Graspologic |
Microsoft Research 的圖演算法函式庫,用於社群偵測 |
| Property Graph (PropertyGraphIndex) |
屬性圖 |
LlamaIndex 用來建構與儲存帶屬性節點/邊的圖結構 |
| Structured Output (Pydantic / Function Calling) |
結構化輸出 |
用 Pydantic 模型與函式 schema 強制 LLM 回傳合法型別的 JSON |
| Fair Use Doctrine |
合理使用原則 |
訓練資料爭議中的核心法律論點 |
| Explainability |
可解釋性 |
GraphRAG 可追溯系統如何得出答案的優勢 |