
0:000:00
<p>DeepSeek已经炸了,已经破圈了。本期节目,我们尝试挑战一下用大白话讲述一下DeepSeek模型背后的真实。DeepSeek V3 进化 DeepSeek R1-Zero 进化 DeepSeek R1 ! 幻方到底做了哪些技术创新和奇技淫巧,让DeepSeek突然爆发成为全球顶流?所谓的“多快好省”体现在具体什么地方?</p><p>如果你不想再人云亦云地复读DeepSeek模型花钱少,那么听一听本期节目包收获的。</p><p>主播:松阴</p><p>节目开始前,请大家加入听友群(加群方法见播客介绍页),以及帮忙多多转发!</p><p>01:47 当我们谈论DeepSeek,我们到底在谈论什么模型?</p><p>04:46 DeepSeek的训练成本500万美元?!</p><p>08:59 美国业界在V3刚出的时候就注意到了</p><p>09:40 MoE 混合专家模型</p><p>11:50 门控网络:混合专家模型里的“分检”</p><p>16:23 多头潜在注意力 MLA</p><p>18:36 FP8的大模型实现</p><p>22:08 DeepSeek到底有1万张A100显卡吗?</p><p>26:00 R1-Zero的Zero来自于Alpha-Zero</p><p>27:00 强化学习 vs 监督学习</p><p>30:04 GRPO(<a href="https://arxiv.org/abs/2405.20304">Group Robust Preference Optimization </a>) vs PPO(<a href="https://huggingface.co/blog/deep-rl-ppo">Proximal Policy Optimization</a>)</p><p>32:33 训练模板</p><p>34:40 R1-Zero的缺点</p><p>36:01 训练一个R1模型</p><p>38:30 R1训练的第二阶段</p><p>40:39 用R1蒸馏小模型</p><p>42:18 什么是“知识蒸馏”呢?软标签/硬标签/温度</p><p>45:08 蒸馏 vs 强化学习</p><p>48:33 吐槽一下:稳定性 and 黑话太多</p><p>----------------分割线------------</p...