
0:000:00
<p>该论文介绍了一种名为 <strong>RLCR(强化学习与校准奖励)</strong> 的新方法,旨在通过结合标准正确性奖励和基于 Brier 分数的校准奖励来训练大型语言模型。文章指出,<strong>传统的二元奖励函数</strong>虽然能提高准确性,但往往导致模型过度自信并增加“幻觉”率。RLCR 的目标是同时提高模型的 <strong>准确性</strong> 和 <strong>校准置信度估计</strong>,使其不仅能给出正确答案,还能准确地表达其不确定性。实验结果表明,RLCR 在保持甚至提升准确性的同时,显著改善了模型的校准性能,尤其是在<strong>域外泛化</strong>方面。此外,文章还探讨了 <strong>言语化置信度</strong> 在测试时缩放方法中的应用,以及<strong>推理过程</strong>如何有助于校准。</p><p>Source: <https://www.arxiv.org/abs/2507.16806></p>