Magistral - readthepapers

该文本介绍了 MistralAI 开发的 Magistral 大型语言模型，该模型专注于通过 强化学习 (RL) 提升推理能力。文档详细阐述了他们的 RL 训练流程，包括对 GRPO 算法的修改，以及如何通过 奖励塑形 来确保模型输出的 格式、正确性、长度和语言一致性。此外，文章还描述了他们为 数学和代码问题 构建 高质量数据集 的过程，并展示了 Magistral Medium 和 Magistral Small 模型在各种 推理基准测试 上的卓越性能。值得注意的是，研究表明，即便只使用文本数据进行 RL 训练，模型也能 保持甚至提升多模态理解能力 和 指令遵循 等现有功能。Source:- <https://mistral.ai/static/research/magistral.pdf>- <https://arxiv.org/abs/2506.10910>