
0:000:00
<p>本研究介绍了一种名为“反思、重试、奖励”的创新方法,旨在通过<strong>强化学习</strong>提升大型语言模型(LLM)的性能。当模型首次未能完成任务时,它会生成<strong>自我反思</strong>来分析错误,然后利用这些反思再次尝试。如果第二次尝试成功,模型会奖励那些促成成功的<strong>自我反思</strong>标记,从而鼓励未来更有效的反思。这种方法在<strong>函数调用和数学方程编写</strong>等复杂任务中展现出显著的性能提升,甚至使小型模型<strong>超越了规模大十倍的未经训练的模型</strong>,同时最大限度地减少了<strong>灾难性遗忘</strong>。</p>