
0:000:00
<p><strong>作者:</strong> Chengshuai Zhao、Zhen Tan、Pingchuan Ma、Dawei Li、Bohan Jiang、Yancheng Wang、Yingzhen Yang 和 Huan Liu (亚利桑那州立大学) <strong>来源:</strong> <a href="https://arxiv.org/pdf/2508.01191">arxiv.org</a></p><h3>摘要</h3><p>这篇研究论文《大语言模型链式思维推理是假象吗?一个数据分布视角》对大语言模型(LLM)中链式思维(CoT)推理的真实性提出了质疑。尽管CoT提示在提高LLM在各种任务中的性能方面表现出色,并常被认为是LLM进行类人推理过程的证据,但本文通过“数据分布”的视角,论证了CoT推理的有效性主要源于模型从训练数据中学习到的“结构化归纳偏差”,而非真正的逻辑推理能力。研究发现,当测试查询与训练数据存在分布差异时,CoT推理的性能会显著下降,变得脆弱且容易失败,甚至可能生成“流畅但逻辑不一致的推理步骤”。这表明CoT推理更像是一种“基于训练数据中记忆或内插模式的假象”,而非通用的可泛化推理能力。</p><h3>主要发现和重要事实</h3><ol> <li><strong>CoT推理的本质:基于数据分布的视角</strong></li></ol><ul> <li><strong>核心假设:</strong> 作者提出,CoT推理是LLM从“分布内数据”中学习到的一种“结构化归纳偏差”,使其能够有条件地生成与训练时所见路径相似的推理路径。因此,“其有效性从根本上受到训练数据和测试查询之间分布差异程度的限制。”</li> <li><strong>“脆性幻觉”:</strong> 研究结果表明,CoT推理是一种“脆性幻觉,当它被推到训练分布之外时就会消失。”它反映的是“对训练期间学习到的模式的复制,而非对文本的真正理解”。</li> <li><strong>“流畅的胡言乱语”:</strong> LLM可能生成“流畅但逻辑不一致的推理步骤”,例如在闰年问题中,模型正确复述了闰年规则并给出了中间步骤,但最终结论却是矛盾的(1776年既是闰年又是普通年份)。这表明“人类推理和CoT推理之间存在区别”。</li></ul><ol> <...