【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析

【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析

Published on Aug 26
21分钟
北雍ECC|中国视野趣谈世界
0:00
0:00
<p>本期为英文。</p><p>DeepSeek 于上周8月21日底低调放出了v3.1,采用了<strong>混合推理架构</strong>,允许模型在同一架构下支持<strong>思考模式(Reasoning Mode)</strong>和<strong>非思考模式(Non-Reasoning Mode),</strong>其中思考模式优化了多步推理能力,在复杂任务(如数学、编程、知识问答)中表现更强,同时 <strong>推理速度比 DeepSeek-R1-0528 更快</strong>,思维链压缩训练使输出 token 减少了 <strong>20%-50%</strong>,效率大幅提升。在<strong>工具使用和智能体任务、多语言优化</strong>方面有了显著提升,并进行<strong>128K 长上下文支持。</strong></p><p>DeepSeek-V3.1 的 <strong>Base 模型</strong> 和 <strong>后训练模型</strong> 已在 <strong>Hugging Face</strong> 和 <strong>魔搭(ModelScope)</strong> 平台开源。</p><p>“知己知彼,百战不殆”,我们暂且把目光移到 OpenAI8月5日刚开源的 <strong>GPT-OSS</strong>,一起梳理它从GPT-2 一路走来的架构演进。</p><p>参考文章:</p><p><a href="https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the"><strong>From GPT-2 to gpt-oss: Analyzing the Architectural Advances</strong></a><strong>,作者:</strong><a href="https://www.linkedin.com/in/sebastianraschka/overlay/about-this-profile/"><strong>Sebastian Raschka</strong></a></p>
【北雍读书】从 GPT-2 到 GPT-OSS:架构演进深度解析 - 北雍ECC|中国视野趣谈世界 - 播刻岛