AI大模型最前沿|DeepSeek、小米和阿里在五一节前都开源了个啥

AI大模型最前沿|DeepSeek、小米和阿里在五一节前都开源了个啥

Published on May 4
10分钟
程序员补缺
0:00
0:00
<p>欢迎来到谷粒粒的AI播客节目《硅基奇谈》,一档集前沿技术与生活杂谈的 ENFJ 技术宅播客。</p><p>本期深入浅出了三个最新发布的焦点模型:专攻形式化证明的 DeepSeek DeepSeek-Prover-V2-671B,采用了递归证明流程和特殊 RL 策略;小米 MiMo-7B-RL 则展示了 MTP、三阶段数据混合等新颖的训练方法;还有备受推崇、强调 Agent 能力和低成本部署的阿里千问 Qwen3。它们的技术路径有何异同?实际应用潜力和开发者生态如何?快来收听,跟上 AI 推理技术的最前沿!</p><figure><img src="https://image.xyzcdn.net/FvNTR6pvZNwfhUsDbJku0ItzF1D_.png"/></figure><ul> <li>00:00:00 - 00:00:17: 开场,提到AI界近期的热闹景象,特别是推理能力强的模型。</li> <li>00:00:17 - 00:00:37: 介绍本次讨论的三个模型:DeepSeek DeepSeek-Prover-V2-671B, 小米 MiMo-7B-RL, 和 阿里千问 Qwen3。</li> <li>00:00:37 - 00:01:16: 详细讨论 DeepSeek DeepSeek-Prover-V2-671B,包括其目标(形式定理证明)、使用的技术(Lean 4, 递归证明流程, 混合数据冷启动, RL)和评测结果(MiniF2F, ProverBench)。</li> <li>00:01:16 - 00:01:41: 讨论 DeepSeek-Prover-V2 的巨大规模(671B 参数)及其带来的成本担忧和中文数据问题。</li> <li>00:01:41 - 00:02:15: 开始讨论 小米 MiMo-7B-RL,强调其 7B 参数规模和针对推理任务的设计。</li> <li>00:02:15 - 00:03:10: 详细介绍 MiMo-7B-RL 的训练技术,包括超大数据量(2.5万亿 Token)、三阶段数据混合策略、32K 上下文、多令牌预测(MTP)、以及基于 GRPO 的强化学习策略和数据处理。</li> <li>00:03:10 - 00:03:35: 讨论小红书上对 MiMo-7B-RL 的反馈:...