| GraphRAG |
圖譜檢索增強生成 |
以知識圖譜為基礎的 RAG,透過實體與關係連結進行檢索 |
| RAG (Retrieval-Augmented Generation) |
檢索增強生成 |
基準作法,先檢索相關內容再交由 LLM 生成答案 |
| Knowledge Graph |
知識圖譜 |
由文本抽取的實體與關係建構而成,供圖譜式檢索使用 |
| Embedding Models |
嵌入模型 |
將文件轉成向量的模型,如 voyage-3-large、nv-embed-v2 |
| Vector Embeddings |
向量嵌入 |
索引階段將來源文件嵌入成向量以供語意比對 |
| Entity and Relation Extraction |
實體與關係抽取 |
GraphRAG 從教科書頁面抽取實體與關係以建圖 |
| Indexing |
索引(建立) |
RAG pipeline 第一步,將文件向量化或結構化為關聯實體 |
| Retrieval |
檢索 |
依使用者查詢取出 top-k 最相關的頁面或實體 |
| Generation |
生成 |
LLM 結合查詢、提示與檢索內容產生答案 |
| Top-k Retrieval |
Top-k 檢索 |
依語意相似度取出前 k 筆最相關結果 |
| Semantic Similarity |
語意相似度 |
檢索階段判斷查詢與內容相關性的依據 |
| Graph-based Retrieval |
圖譜式檢索 |
透過圖節點與邊進行檢索與生成 |
| Retrieval Page Accuracy |
檢索頁面準確率 |
評估正確頁面被成功檢索的比例(o3-mini 達 0.914) |
| Question Answer Similarity F1 |
問答相似度 F1 |
以共享詞衡量輸出與標準答案的重疊(precision/recall 平衡) |
| Precision / Recall |
精確率/召回率 |
分別衡量輸出涵蓋標準答案的精準與完整程度 |
| Ground-truth Answer |
標準答案 |
用以比對模型輸出的正確參考解答 |
| OCR (Optical Character Recognition) |
光學字元辨識 |
以 GPT Vision 對教科書進行 OCR 建立資料集 |
| Entity Traversal / Inter-page Relationships |
實體走訪/跨頁關係 |
GraphRAG 建模概念跨頁流動以擴充檢索脈絡 |
| Large Language Model (LLM) |
大型語言模型 |
生成階段用以產出最終答案的模型 |
| Retrieval QA |
檢索式問答 |
本研究的任務設定:逐頁的教科書檢索問答 |