
0:000:00
<p>本论文<strong>探讨了大型语言模型(LLMs)的“波将金式理解”现象</strong>,即模型在基准测试中表现出色,但其概念理解方式与人类存在根本差异。作者提出了一个<strong>正式框架</strong>来定义这种现象,并指出<strong>为人类设计的基准测试,只有在LLMs的错误理解模式与人类相似时才对LLMs有效</strong>。研究通过<strong>两种方法</strong>量化了波将金式理解的普遍性:一是<strong>构建了一个新的基准数据集</strong>,涵盖文学技巧、博弈论和心理偏见等领域,测试模型解释和应用概念的能力;二是<strong>设计了一个自动化评估程序</strong>,通过衡量模型自身回答的一致性来检测这种不理解。结果表明,<strong>所有测试的模型都普遍存在这种表面理解</strong>,即使它们能正确定义概念,也常在实际应用中失败,并且其内部概念表征存在不连贯性。</p><p>Source: <https://arxiv.org/abs/2506.21521></p>