重點摘要:OpenAI 承諾的開源模型終於問世 — GPT-OSS 模型正式介紹¶
TL;DR¶
OpenAI 以 Apache 2.0 釋出 20B/120B 推理級開源模型,性能逼近 o4-mini。
核心問題¶
OpenAI 自 GPT-2 後首度釋出真正開源權重模型,本文系統性介紹 GPT-OSS 的架構、部署方式與評測表現,並評估其在商業與研發場景的落地可行性。
關鍵發現 / 數據¶
- 兩款模型:gpt-oss-120b(117B 參數 / 5.1B 活躍)與 gpt-oss-20b(21B / 3.6B 活躍),皆為 MoE 架構。
- 經 4-bit MXFP4 量化後,120B 可塞進單張 80GB GPU、20B 可塞進單張 16GB GPU。
- MMLU ≈ 90%、AIME > 95%、多語言 MMMLU 高推理達 81.3%,整體接近 o4-mini。
- HealthBench 醫療領域幾乎匹敵 o3,明顯優於 GPT-4o 與 o4-mini。
- 弱點:幻覺率略高於 o4-mini,GPQA/HLE 高難度推理仍有差距。
方法亮點¶
- Token-choice MoE + SwiGLU,softmax-after-topk 專家選擇。
- 注意力層交替「全域上下文」與「128 token 滑動視窗」,支援 128K RoPE。
- 每個注意力頭引入可學習 attention sink(softmax 分母加偏置)以穩定長上下文。
- 採 Harmony 回應格式定義 system>developer>user>assistant>tool 層級,並支援 low/medium/high 推理強度調節。
對我的研究有用嗎?¶
GraphRAG 研究者可關注其原生 Chain-of-Thought 輸出(analysis/final 雙通道)與 Function Calling 能力,適合作為知識圖譜抽取與 Agent 工作流的低成本可控本地後端。attention sink 與滑窗交替設計對長文件圖譜建構的上下文穩定性有參考價值,且開源權重便於微調與離線部署。
評語¶
實用導向的部署整理文,benchmark 數據轉述自官方、缺乏作者獨立驗證,宜當入門指南而非深度評測。