反射、重试、奖励：LLM自提升 - 大模型论文天天读

本研究介绍了一种名为“反思、重试、奖励”的创新方法，旨在通过强化学习提升大型语言模型（LLM）的性能。当模型首次未能完成任务时，它会生成自我反思来分析错误，然后利用这些反思再次尝试。如果第二次尝试成功，模型会奖励那些促成成功的自我反思标记，从而鼓励未来更有效的反思。这种方法在函数调用和数学方程编写等复杂任务中展现出显著的性能提升，甚至使小型模型超越了规模大十倍的未经训练的模型，同时最大限度地减少了灾难性遗忘。