跳轉到

重點摘要:OpenAI 承諾的開源模型終於問世 — GPT-OSS 模型正式介紹

TL;DR

OpenAI 以 Apache 2.0 釋出 20B/120B 推理級開源模型,性能逼近 o4-mini。

核心問題

OpenAI 自 GPT-2 後首度釋出真正開源權重模型,本文系統性介紹 GPT-OSS 的架構、部署方式與評測表現,並評估其在商業與研發場景的落地可行性。

關鍵發現 / 數據

  • 兩款模型:gpt-oss-120b(117B 參數 / 5.1B 活躍)與 gpt-oss-20b(21B / 3.6B 活躍),皆為 MoE 架構。
  • 經 4-bit MXFP4 量化後,120B 可塞進單張 80GB GPU、20B 可塞進單張 16GB GPU。
  • MMLU ≈ 90%、AIME > 95%、多語言 MMMLU 高推理達 81.3%,整體接近 o4-mini。
  • HealthBench 醫療領域幾乎匹敵 o3,明顯優於 GPT-4o 與 o4-mini。
  • 弱點:幻覺率略高於 o4-mini,GPQA/HLE 高難度推理仍有差距。

方法亮點

  • Token-choice MoE + SwiGLU,softmax-after-topk 專家選擇。
  • 注意力層交替「全域上下文」與「128 token 滑動視窗」,支援 128K RoPE。
  • 每個注意力頭引入可學習 attention sink(softmax 分母加偏置)以穩定長上下文。
  • 採 Harmony 回應格式定義 system>developer>user>assistant>tool 層級,並支援 low/medium/high 推理強度調節。

對我的研究有用嗎?

GraphRAG 研究者可關注其原生 Chain-of-Thought 輸出(analysis/final 雙通道)與 Function Calling 能力,適合作為知識圖譜抽取與 Agent 工作流的低成本可控本地後端。attention sink 與滑窗交替設計對長文件圖譜建構的上下文穩定性有參考價值,且開源權重便於微調與離線部署。

評語

實用導向的部署整理文,benchmark 數據轉述自官方、缺乏作者獨立驗證,宜當入門指南而非深度評測。