
0:000:00
<p>该论文介绍了 <strong>R-4B</strong>,这是一种<strong>多模态大型语言模型(MLLM)</strong>,旨在通过<strong>自适应思考</strong>能力来平衡复杂推理与推理效率。R-4B 利用<strong>双模式退火</strong>进行训练,使其能够进行<strong>思考</strong>和<strong>非思考</strong>两种模式的响应。随后,通过<strong>双模式策略优化 (BPO)</strong> 进行强化学习,使模型能够根据问题的复杂性<strong>智能选择</strong>合适的模式。实验结果表明,R-4B-RL 在多项基准测试中表现出色,尤其在<strong>推理密集型任务</strong>上超越了同类模型,并在<strong>计算效率</strong>与<strong>性能</strong>之间取得了平衡。</p><p>Source: <https://arxiv.org/abs/2508.21113></p>