DeepSeek 3.2 做了什么,让硅谷人在飞机上都在读

DeepSeek 3.2 做了什么,让硅谷人在飞机上都在读

Published on Dec 3
21分钟
AI边角料
0:00
0:00
<p>坐飞机去圣迭戈参加 NeurIPS 2025,结果一上飞机整个人傻眼: &nbsp;机舱里至少30%的人,手机、iPad、MacBook 打开的全部是同一个PDF——DeepSeek 昨天刚放出来的 V3.2 技术报告这份报告发布时机完美,正好赶上NeurIPS 2025(神经信息处理系统大会)前夕(会议在圣迭戈举行)</p><figure><img src="https://image.xyzcdn.net/Fvx4SNfAG46HZ_ig7Ca1yTFY75LX.png"/></figure><figure><img src="https://image.xyzcdn.net/Fhp56U8w0ZodSvInt2s6jmQgl5uO.png"/></figure><p>DeepSeek V3.2 技术报告分析,帮你理解3.2 是如何通过“换引擎”与“魔鬼特训”,在国际奥数金牌级任务上追平闭源巨头 Gemini 3.0 Pro。</p><p>一:换引擎:DSA 稀疏注意力架构</p><ul> <li>打破“油耗”瓶颈:传统注意力机制随文本变长计算量呈平方级暴涨,DSA(DeepSeek 稀疏注意力)架构将其降至接近线性,大幅提升长文本处理效率。</li> <li>图书馆索引比喻:引入“闪电索引器”(一种快速筛选核心信息的组件)锁定相关书架,而非逐页翻阅全库,实现极低成本的信息检索。</li> <li>模拟器训练法:采用“密集预热”策略(先冻结主体参数只练索引器),再转入全面解冻的实战训练,完美解决了新旧架构的过渡难题。</li></ul><p>二:练车手:专家蒸馏与 GRPO 算法</p><ul> <li>专家分治策略:训练 6 个垂直领域的“单项冠军”模型(专家蒸馏),生成高质量合成数据反哺通用模型,实现知识提纯。</li> <li>GRPO 混合训练:利用 GRPO(一种能兼顾多任务平衡的强化学习算法)将推理、智能体与人类对齐任务一锅炖,有效防止模型“学了编程忘数学”。</li> <li>部门路由锁定:在 MoE(混合专家模型)训练中强制保持专家选择的一致性,避免因模型自我进化导致“昨天选张三、今天选李四”的混乱。</li></ul><p>三:强路感:智能体思维与数据合成</p><ul> <li>保留草稿纸:在调用工具时保留完整的 CoT(...