119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

Published on Nov 3
1小时43分钟
张小珺Jùn|商业访谈录
0:00
0:00
<figure><img src="https://image.xyzcdn.net/Flo18nNUSP7OUNlTf8UgCdHxio6O.jpg"></figure><p>今天这集节目,我们将讨论一个在当下非常关键的话题:<strong>人工智能的算法与架构创新。</strong></p><p>嘉宾是我们的往期嘉宾返场,她是MIT在读博士杨松琳,研究方向是线性注意力机制。</p><p>我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作,<strong>是Kimi Linear论文的作者之一。</strong></p><p>算法创新为什么在2025年变得尤为重要?</p><p>它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期Scaling Law的魔法继续。而由于中国的算力相对美国有限,<strong>这反而让中国的AI算法创新走在了世界前沿。</strong></p><p>这集节目你将听到,<strong>近几年架构最大突破是DeepSeek的MoE(混合专家模型),它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention(注意力机制)。</strong></p><p>中国公司在Attention展开了不同技术bet(押注):</p><ul><li><p>截至目前已发布模型,DeepSeek正在探索Sparse Attention(稀疏注意力机制);</p></li><li><p>Kimi正在探索Linear Attention(线性注意力机制);</p></li><li><p>Minimax在年初的M1版本中探索Linear Attention,而在刚发布的M2版本中又回退到 Full Attention(全局注意力机制)。</p></li></ul><p>节目中,松琳将讲解她参与的这篇<strong>《Kimi Linear: An Expressive, Efficient Attention Architecture》</strong>的工作,并分析以上这些公司在Attention上的不同抉择;</p><p><strong>与此同时,她也将带领...
119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案 - 张小珺Jùn|商业访谈录 - 播刻岛