美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

美团入局大模型:LongCat-Flash如何高效驱动智能体?深度解析MoE架构、零计算专家与数据飞轮

Published on Aug 31
21分钟
Daily LLM Papers
0:00
0:00
<p><a href="https://huggingface.co/meituan-longcat/LongCat-Flash-Chat">LongCat-Flash-Chat</a></p><p>LongCat-Flash 模型在架构设计、训练策略和推理部署方面引入了多项创新技术,使其在计算效率和智能体能力方面均表现出色。</p><h3>模型架构创新和技术要点</h3><p>LongCat-Flash 采用了一种新颖的 Mixture-of-Experts (MoE) 架构,其核心创新包括:</p><ul> <li><strong>零计算专家 (Zero-computation Experts)</strong>:LongCat-Flash 引入了零计算专家机制,能够根据上下文需求<strong>动态分配计算预算</strong>。这意味着模型可以为重要的 token 激活更多参数,而对不重要的 token 减少计算,从而优化资源利用。<br>在总共 5600 亿参数中,模型每个 token 平均激活约 <strong>270 亿参数</strong>,范围在 186 亿至 313 亿之间。<br>通过由 PID 控制器调整的专家偏差来保持平均激活参数的一致性,确保专家间的负载平衡,并在相同的计算预算下实现优于传统 MoE 模型的性能。零计算专家本身不产生额外的计算成本,仅仅返回输入作为输出。<br></li> <li><strong>快捷连接 MoE (Shortcut-connected MoE, ScMoE)</strong>:ScMoE 架构通过引入<strong>跨层快捷连接</strong>,显著扩大了计算与通信的重叠窗口。<br>这一设计允许前一个模块的密集前馈网络 (FFN) 计算与当前 MoE 层的分派/合并通信<strong>并行执行</strong>。<br>ScMoE 在训练和推理过程中都带来了显著的效率提升和高吞吐量。例如,在推理时,它实现了<strong>单批次重叠 (Single Batch Overlap, SBO) 流水线</strong>,理论上可将每输出 token 时间 (TPOT) 减少近 50%。<br>实验证明,ScMoE 优化对模型质量<strong>没有负面影响</strong>,训练损失曲线与基线模型几乎相...