编码人声:DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了

编码人声:DeepSeek 和 OpenAI 都没做到的技术,这群人先实现了

Published on Feb 23
3271
津津乐道
0:00
0:00
<p>目前,哪怕是 DeepSeek 或者 ChatGPT,都是人类说一句 AI 答一句。这种方式很「被动」,AI 只能等你来召唤它。</p><p>本期节目邀请到声网大语言模型实验室的李忻玮,和实时 AI 创业者史业民。围绕「更主动交互的 AI」的话题,分享包括语音、视频等多模态的主动交互,以及背后更具体的技术细节和路径。</p><p>如何让 AI 像自然对话那样,适时地主动说话、打断或是沉默?如何实现在你出门时候,AI 主动提醒你带伞?黄仁勋和李飞飞都在做的「世界模型」是什么?它将如何帮助 AI 理解和预测更真实的世界?期待本期节目对你有所启发。</p><h2 class="wp-block-heading">【本期嘉宾和主播】</h2><p>史业民:实时互动 AI 创业者,前智源研究院研究员。<br>李忻玮:声网大语言模型实验室高级研究员,RTE 开发者社区布道师,《从零开始学扩散模型》作者,Hugging Face 中文社区成员。<br>朱峰:「津津乐道播客网络」创始人,产品及技术专家。</p><h2 class="wp-block-heading">线下活动推荐(含赠票活动)</h2><p>Apple 生态爱好者们,LET’S VISION 2025 大会即将回归,将于「 2025 年 3 月 1 日至 2 日」在「上海浦东鲜花港」举行。本次大会将聚焦技术前沿、创意实践、资源共享和未来展望,为参与者提供与行业领袖深入交流的机会。通过 RTE 开发者社区专属优惠码「<strong>EDHls6n</strong>」或 URL 购票,享受 9 折优惠:<a href="https://hdxu.cn/xzes">https://hdxu.cn/xzes</a></p><figure class="wp-block-image is-resized"><img decoding="async" src="https://cdn2.wavpub.com/hosting.wavpub.cn/wp-content/uploads/sites/33/2025/02/20250223A-768x1024.png" alt="" class="wp-image-407" style="width:306px;height:auto"/></figure><p>RTE 开发者社...