
0:000:00
<p>http://arxiv.org/abs/2501.12948</p><p>该论文介绍了DeepSeek-AI团队研发的<strong>DeepSeek-R1模型</strong>,这是一款旨在提高大型语言模型推理能力的新模型。 论文首先展示了通过纯粹强化学习训练的<strong>DeepSeek-R1-Zero</strong>,它展现出强大的推理能力但存在可读性等问题。 为解决这些不足并进一步提升性能,团队引入了<strong>DeepSeek-R1</strong>,该模型结合了多阶段训练和冷启动数据,并在推理任务上取得了与OpenAI-o1-1217相当的表现。 此外,论文还探讨了将DeepSeek-R1的推理能力<strong>蒸馏</strong>到更小的密集模型中,并通过实验证明了该方法的有效性,同时开源了DeepSeek-R1及其一系列蒸馏模型。</p>