
0:000:00
<p>多模态能力的融合正在改写AI发展路径。语音、视觉与自然语言处理的边界日益模糊,以Transformer为代表的通用解决方案,正在重塑传统技术领域。</p><p>在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?</p><p>本期《智者访谈》邀请到著名开源语音识别项目Kaldi的创始人、小米集团语音首席科学家Daniel Povey博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为Google Gemini等标志性项目的负责人。</p><p>当整个行业都在追逐大模型和通用方法时,Povey博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进AI,那些容易被发现的方法早就已经被人发现了。」</p><p>在他看来,技术进步不应被某一主流范式所限制,AI领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。</p><p>Transformer确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。</p><p>对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学AI就能年薪百万的时代已经过去了,现在进入AI领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。</p><p>希望这番坦诚的对话,能为我们在AI发展的万千可能性中,找到属于自己的方向。</p><p>【时间线】</p><p><strong>01:35 </strong>Kaldi 之后的新探索</p><p><strong>02:51 </strong>语音成了神经网络的子领域</p><p><strong>04:37 </strong>多模态:Transformer 大一统?</p><p><strong>07:54 </strong>大模型 vs 小模型</p><p><stro...