Magistral

Magistral

Published on Jun 12
8分钟
readthepapers
0:00
0:00
<p>该文本介绍了 <strong>MistralAI</strong> 开发的 <strong>Magistral</strong> 大型语言模型,该模型专注于通过 <strong>强化学习 (RL)</strong> 提升推理能力。文档详细阐述了他们的 <strong>RL 训练流程</strong>,包括对 <strong>GRPO 算法</strong>的修改,以及如何通过 <strong>奖励塑形</strong> 来确保模型输出的 <strong>格式、正确性、长度和语言一致性</strong>。此外,文章还描述了他们为 <strong>数学和代码问题</strong> 构建 <strong>高质量数据集</strong> 的过程,并展示了 <strong>Magistral Medium</strong> 和 <strong>Magistral Small</strong> 模型在各种 <strong>推理基准测试</strong> 上的卓越性能。值得注意的是,研究表明,即便只使用文本数据进行 RL 训练,模型也能 <strong>保持甚至提升多模态理解能力</strong> 和 <strong>指令遵循</strong> 等现有功能。</p><p>Source:</p><p>- &lt;https://mistral.ai/static/research/magistral.pdf&gt;</p><p>- &lt;https://arxiv.org/abs/2506.10910&gt;</p>