重點摘要：OpenAI 承諾的開源模型終於問世 — GPT-OSS 模型正式介紹¶

TL;DR¶

OpenAI 以 Apache 2.0 釋出 20B/120B 推理級開源模型，性能逼近 o4-mini。

核心問題¶

OpenAI 自 GPT-2 後首度釋出真正開源權重模型，本文系統性介紹 GPT-OSS 的架構、部署方式與評測表現，並評估其在商業與研發場景的落地可行性。

關鍵發現 / 數據¶

兩款模型：gpt-oss-120b（117B 參數 / 5.1B 活躍）與 gpt-oss-20b（21B / 3.6B 活躍），皆為 MoE 架構。
經 4-bit MXFP4 量化後，120B 可塞進單張 80GB GPU、20B 可塞進單張 16GB GPU。
MMLU ≈ 90%、AIME > 95%、多語言 MMMLU 高推理達 81.3%，整體接近 o4-mini。
HealthBench 醫療領域幾乎匹敵 o3，明顯優於 GPT-4o 與 o4-mini。
弱點：幻覺率略高於 o4-mini，GPQA/HLE 高難度推理仍有差距。

方法亮點¶

Token-choice MoE + SwiGLU，softmax-after-topk 專家選擇。
注意力層交替「全域上下文」與「128 token 滑動視窗」，支援 128K RoPE。
每個注意力頭引入可學習 attention sink（softmax 分母加偏置）以穩定長上下文。
採 Harmony 回應格式定義 system>developer>user>assistant>tool 層級，並支援 low/medium/high 推理強度調節。

對我的研究有用嗎？¶

GraphRAG 研究者可關注其原生 Chain-of-Thought 輸出（analysis/final 雙通道）與 Function Calling 能力，適合作為知識圖譜抽取與 Agent 工作流的低成本可控本地後端。attention sink 與滑窗交替設計對長文件圖譜建構的上下文穩定性有參考價值，且開源權重便於微調與離線部署。

評語¶

實用導向的部署整理文，benchmark 數據轉述自官方、缺乏作者獨立驗證，宜當入門指南而非深度評測。