
0:000:00
<p>这篇论文介绍了一种名为<strong>强化预训练 (RPT)</strong> 的新型方法,旨在提升大型语言模型 (LLM) 的能力。RPT将传统的“下一词元预测”任务重新定义为一种<strong>推理任务</strong>,通过强化学习 (RL) 机制,根据模型对下一词元预测的<strong>准确性</strong>给予可验证的奖励。这种方法使得LLM能够利用海量的未标注文本数据进行<strong>通用型强化学习</strong>,从而促进更深层次的<strong>下一词元推理</strong>。实验结果表明,RPT显著提高了下一词元预测的准确性,并为后续的<strong>强化微调</strong>提供了更坚实的基础,同时展现出与计算资源增加相符的<strong>良好扩展性</strong>。</p><p>Source: <https://arxiv.org/abs/2506.08007></p>