
0:000:00
<p>论文链接:https://arxiv.org/pdf/2412.19437v1</p><p>论文发布时间:2024年12月27日</p><h2>论文解读</h2><p>DeepSeek-V3 是深度求索(DeepSeek)团队于2024年底推出的开源混合专家(MoE)大语言模型,凭借其创新的架构设计和高效的训练策略,在多项性能评测中达到与顶尖闭源模型(如GPT-4o、Claude-3.5-Sonnet)相当的水平,同时显著降低了训练成本。</p><p><u><strong>一、模型架构与核心创新</strong></u></p><p>1. 混合专家(MoE)架构优化</p><ul> <li>参数规模:总参数6710亿(671B),每个token激活370亿(37B)参数,通过稀疏激活降低计算成本。</li> <li>DeepSeek MoE设计: <ul> <li><strong>无辅助损失负载均</strong>:通过动态调整专家偏置项实现负载均衡,避免传统MoE中辅助损失对性能的干扰,同时引入序列级辅助损失缓解极端不平衡。</li> <li><strong>细粒度专家分工</strong>:包含256个路由专家和1个共享专家,每个token最多路由至4个节点,减少通信开销。</li> </ul> </li></ul><p>2. 多头潜在注意力(MLA)</p><ul> <li>高效长文本处理:采用低秩压缩技术减少键值缓存(KV cache)内存占用,支持128K上下文窗口,在“针在干草堆”(NIAH)测试中表现优异。</li></ul><p>3. 多标记预测(MTP)</p><ul> <li>训练与推理优化:同时预测未来两个token,提升数据利用效率,并通过推测解码(speculative decoding)实现1.8倍推理加速,生成速度达60 TPS。</li></ul><p><u><strong>二、训练方法与效率</strong></u></p><p>1. 三阶段训练流程</p><ul> <li>预训练:使用14.8万亿token的多语言数据(侧重数学与编程),采用文档打包(document packing)和填空策略(Fill-in-Middle)增强上下文理解,总耗时278.8万H800 GPU小时(...