
0:000:00
<p>本研究<strong>调查了大型语言模型(LLMs)通过强化学习(RL)在数学推理方面性能提升的可靠性</strong>。文章指出,Qwen2.5模型系列在数学基准测试(如MATH-500)上的显著进步,可能并非源于真正的推理能力提升,而是<strong>因为其预训练数据存在与这些基准测试的“数据污染”现象,导致模型记忆了答案</strong>。为了验证这一假设,研究人员<strong>创建了一个名为RandomCalculation的无污染合成数据集</strong>,并在此数据集上进行了RL实验。实验结果表明,<strong>只有准确的奖励信号才能促使模型在无污染数据上实现稳定的性能提升</strong>,而随机或不正确的奖励则无法带来有意义的改进,这有力地支持了<strong>数据污染是导致Qwen2.5在旧基准上表现异常的主要原因</strong>。</p><p>Source: <https://arxiv.org/abs/2507.10532></p>