Coconut

Coconut

Published on Aug 13
9分钟
readthepapers
0:00
0:00
<p>这项研究引入了一种名为 <strong>Coconut</strong>(连续思想链)的新范式,旨在改进大型语言模型 (LLM) 的推理能力。当前 LLM 通常通过<strong>语言空间</strong>中的“思想链”(CoT)进行推理,作者认为这种方式效率不高,因为语言表达中的许多标记对实际推理作用不大。相反,<strong>Coconut</strong> 允许 LLM 在<strong>连续潜在空间</strong>中进行推理,直接将模型的最后隐藏状态(即“连续思想”)作为下一次输入的嵌入,而非将其解码为词元。实验表明,这种方法在逻辑推理任务中优于传统的 <strong>CoT</strong>,并且能够促成类似<strong>广度优先搜索</strong>(BFS)的高级推理模式,这使得模型能够同时编码多个可能的推理步骤,并在规划过程中更有效地消除错误路径。研究强调了潜在推理的潜力及其对未来 <strong>LLM</strong> 研究的启示。</p><p>Source: &lt;https://arxiv.org/abs/2412.06769&gt;</p>