百亿美金问题:大模型创业PMF难寻,是Transformer的锅吗?

百亿美金问题:大模型创业PMF难寻,是Transformer的锅吗?

Published on Dec 27
32分钟
先见未明
0:00
0:00
<p>刚刚结束的极客公园年终大会上,美国工程院院士、智源研究院原理事长张宏江和谷歌DeepMind资深工程师卢一峰进行了一场对话。</p><p>谈及大模型幻觉问题的难解,<strong>张院士提出了一个被卢一峰称为“价值百亿美金(甚至更多)”的问题:Transformer是否当下唯一可靠的架构?大模型向未来发展的过程中,技术路径上还会不会有新的、根本上的变化?</strong></p><p>在这场对谈发生前不久,卡内基梅隆大学(人称全球AI专业“天花板”)和普林斯顿大学的研究者发布了一种名为Mamba的新架构,解决Transformer核心注意力层无法扩展的致命bug,推理速度提升5倍。论文一出,国内媒体惊呼:难道Transformer架构垄断终于要被打破了?</p><p>无独有偶,<strong>半年多前,我们采访了一个正在研发非Transformer架构模型的国内团队,RWKV。团队坚持模型开源(RWKV已成为Linux基金会孵化项目,所有底层模型的知识产权将放在这家非营利机构),并成立了一家商业公司,做围绕该模型的微调量化及To C、To B商业化落地。</strong></p><p>采访中,团队核心成员罗璇说,自己在与国内AI圈、投资圈朋友交流时,经常会争论几个“非共识”:Transformer是不是唯一选择?AIGC的未来就是云服务了吗?小公司能不能做大模型?</p><p>随着时间推移,罗璇曾经的某些“非共识”观点似乎正在成为共识。在大模型底层架构创新上,除了上文提到的Mamba,微软和清华团队也在7月推出了RetNet架构;端上大模型更是近期的话题高地。RWKV自身,则累积了近万的全球开发者,与高通、MKT、英伟达等大厂展开合作(据悉,阿里达摩院近期在开发基于RWKV架构的语音识别模型)。</p><p><strong>当然,RWKV要验证其可广泛应用性,还有更长的路要走。但正如我们节目名称想传达的,先见必然未明,生生不息的创新才是最为可贵。</strong>于是,我们特别邀请罗璇年终返场,聊聊他对大模型创业的新体会。</p><p>【本期嘉宾】</p><p>罗璇 元始智能(RWKV)联创兼CPO | 前阿里机器人产品总监</p><p>【时间轴】</p><p>02:49 “所有基于Transformer的基础设施和应用都值得用RWKV重做一遍”?</p><p...