| MoE (Mixture of Experts) |
混合專家模型 |
GPT-OSS 採用 Token-choice MoE 架構,4-bit 量化僅應用於 MoE 權重 |
| MXFP4 quantization |
MXFP4 量化 |
4-bit MXFP4 量化使 120B 模型可容納於單張 80GB GPU |
| Active parameters |
活躍參數 |
21B/117B 總參數對應 3.6B/5.1B 活躍參數,MoE 每次只啟用部分專家 |
| Chain-of-Thought (CoT) |
鏈式思考 / 思維鏈 |
模型內建推理過程,原始 CoT 輸出至 analysis 通道 |
| SwiGLU |
SwiGLU 激活函數 |
MoE 架構中採用的前饋層激活函數 |
| softmax-after-topk |
Top-k 後 softmax |
選出 Top-k 專家後再對其權重執行 softmax |
| RoPE (Rotary Position Embedding) |
旋轉位置編碼 |
注意力層使用 RoPE,最長支援 128K Token 相對位置編碼 |
| Sliding Window Attention |
滑動視窗注意力 |
注意力層交替採用全域上下文與 128 Token 滑動視窗機制 |
| Attention sink |
注意力匯點 |
每個注意力頭在 softmax 分母加入可學習偏置,增強長上下文穩定性 |
| Tokenizer |
分詞器 |
與 GPT-4o 等 API 模型共用,並新增 Token 相容 Responses API |
| Instruction following |
指令跟隨 |
模型支援指令跟隨與工具調用,用於 AI Agent 工作流程 |
| Function / Tool Calling |
函數 / 工具調用 |
模型可執行複雜函式邏輯,搭配 Google ADK 導入 |
| Reasoning effort (low/medium/high) |
推理強度等級 |
可在系統訊息中調節推理深度,預設為 medium |
| Harmony response format |
Harmony 回應格式 |
定義對話結構、推理輸出與函數呼叫的訓練格式 |
| Chat Template |
對話模板 |
因 Harmony 與 Google ADK 格式差異,需調整 Chat Template |
| Jailbreak resistance |
越獄抗性 |
抗繞過能力接近 o4-mini,Instruction Hierarchy 稍弱 |
| Instruction Hierarchy |
指令優先級 |
system > developer > user > assistant > tool 的資訊層次結構 |
| Hallucinations |
幻覺 |
未開啟瀏覽功能下幻覺率較 o4-mini 稍高 |
| TensorRT-LLM |
TensorRT-LLM 推理引擎 |
NVIDIA 推理優化框架,企業級地端部署推薦方案 |
| Online endpoint |
線上端點 |
Azure AI Model Catalog 可將模型部署至線上端點進行即時推理 |