跳轉到

關鍵術語對照表

英文 繁中譯名 文章中的脈絡 / 簡短說明
MoE (Mixture of Experts) 混合專家模型 GPT-OSS 採用 Token-choice MoE 架構,4-bit 量化僅應用於 MoE 權重
MXFP4 quantization MXFP4 量化 4-bit MXFP4 量化使 120B 模型可容納於單張 80GB GPU
Active parameters 活躍參數 21B/117B 總參數對應 3.6B/5.1B 活躍參數,MoE 每次只啟用部分專家
Chain-of-Thought (CoT) 鏈式思考 / 思維鏈 模型內建推理過程,原始 CoT 輸出至 analysis 通道
SwiGLU SwiGLU 激活函數 MoE 架構中採用的前饋層激活函數
softmax-after-topk Top-k 後 softmax 選出 Top-k 專家後再對其權重執行 softmax
RoPE (Rotary Position Embedding) 旋轉位置編碼 注意力層使用 RoPE,最長支援 128K Token 相對位置編碼
Sliding Window Attention 滑動視窗注意力 注意力層交替採用全域上下文與 128 Token 滑動視窗機制
Attention sink 注意力匯點 每個注意力頭在 softmax 分母加入可學習偏置,增強長上下文穩定性
Tokenizer 分詞器 與 GPT-4o 等 API 模型共用,並新增 Token 相容 Responses API
Instruction following 指令跟隨 模型支援指令跟隨與工具調用,用於 AI Agent 工作流程
Function / Tool Calling 函數 / 工具調用 模型可執行複雜函式邏輯,搭配 Google ADK 導入
Reasoning effort (low/medium/high) 推理強度等級 可在系統訊息中調節推理深度,預設為 medium
Harmony response format Harmony 回應格式 定義對話結構、推理輸出與函數呼叫的訓練格式
Chat Template 對話模板 因 Harmony 與 Google ADK 格式差異,需調整 Chat Template
Jailbreak resistance 越獄抗性 抗繞過能力接近 o4-mini,Instruction Hierarchy 稍弱
Instruction Hierarchy 指令優先級 system > developer > user > assistant > tool 的資訊層次結構
Hallucinations 幻覺 未開啟瀏覽功能下幻覺率較 o4-mini 稍高
TensorRT-LLM TensorRT-LLM 推理引擎 NVIDIA 推理優化框架,企業級地端部署推薦方案
Online endpoint 線上端點 Azure AI Model Catalog 可將模型部署至線上端點進行即時推理