
0:000:00
<p><strong>Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation</strong></p><p>这篇研究论文介绍了<strong>Mixture-of-Recursions (MoR)</strong>,这是一个针对大型语言模型(LLMs)效率的新框架。MoR通过<strong>参数共享</strong>(重复使用一套共享层)和<strong>自适应计算</strong>(轻量级路由器动态分配不同递归深度给单个令牌)来降低计算和内存成本。该研究探讨了两种主要的路由策略——<strong>专家选择</strong>和<strong>令牌选择</strong>——以及两种<strong>键值(KV)缓存策略</strong>,以优化性能。实验结果表明,MoR在相同的计算预算下,显著提升了LLMs的<strong>验证困惑度</strong>和<strong>少量样本准确性</strong>,并实现了更高的<strong>推理吞吐量</strong>,证明其在降低大型模型成本方面是有效的。</p><p>论文原文:https://www.alphaxiv.org/abs/2507.10524</p>