
0:000:00
<p>本篇论文介绍了一种名为令牌顺序预测(TOP)的新型辅助训练目标,旨在提升大型语言模型(LLMs)的性能。<strong>文章首先</strong>阐述了当前LLMs主要采用的下一令牌预测(NTP)方法的局限性,<strong>随后</strong>审视了多令牌预测(MTP)作为辅助目标所面临的挑战,**例如在标准自然语言处理(NLP)基准测试中表现不佳,以及对模型规模和未来令牌数量的敏感性。**TOP通过预测即将出现的令牌的相对顺序,而非精确的未来令牌,**简化了学习任务,**并且只需额外一个线性嵌入层,**使其在参数效率和可扩展性上优于MTP。**实验结果表明,**TOP在多种规模的模型上,均优于NTP和MTP,**特别是在70亿参数的模型上,展现出更好的通用语言建模性能和扩展潜力。</p><p>Source: <https://arxiv.org/abs/2508.19228></p>