
0:000:00
<p>本论文来自腾讯人工智能实验室,<strong>介绍了一种名为 Vision-SR1 的新方法</strong>,旨在提升视觉语言模型 (VLM) 的推理能力。<strong>Vision-SR1 通过将 VLM 的推理过程分解为视觉感知和语言推理两个阶段,并通过模型自身进行奖励评估来解决现有 VLM 的视觉幻觉和语言捷径问题</strong>。该方法在强化学习框架下运作,<strong>无需外部人工标注或预先提取的标签,从而解决了现有方法的扩展性和成本问题</strong>。实验结果表明,Vision-SR1 在多项视觉语言任务上<strong>显著提高了视觉推理能力,减少了模型对语言捷径的依赖</strong>。该研究还提出了<strong>语言捷径率 (LSR) 作为衡量模型对视觉理解的依赖程度的指标</strong>。</p><p>Source: <https://arxiv.org/abs/2508.19652></p>