【北雍读书】从 GPT-2 到 GPT-OSS：架构演进深度解析 - 北雍ECC｜中国视野趣谈世界

本期为英文。DeepSeek 于上周8月21日底低调放出了v3.1，采用了混合推理架构，允许模型在同一架构下支持思考模式（Reasoning Mode）和非思考模式（Non-Reasoning Mode），其中思考模式优化了多步推理能力，在复杂任务（如数学、编程、知识问答）中表现更强，同时 推理速度比 DeepSeek-R1-0528 更快，思维链压缩训练使输出 token 减少了 20%-50%，效率大幅提升。在工具使用和智能体任务、多语言优化方面有了显著提升，并进行128K 长上下文支持。DeepSeek-V3.1 的 Base 模型 和 后训练模型 已在 Hugging Face 和 魔搭（ModelScope） 平台开源。“知己知彼，百战不殆”，我们暂且把目光移到 OpenAI8月5日刚开源的 GPT-OSS，一起梳理它从GPT-2 一路走来的架构演进。参考文章：<a href="https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the">From GPT-2 to gpt-oss: Analyzing the Architectural Advances</a>，作者：<a href="https://www.linkedin.com/in/sebastianraschka/overlay/about-this-profile/">Sebastian Raschka</a>