
0:000:00
<p>5 月中旬 GPT-4o 的发布,让人与 AI 的交互,从对话框的文本交流加速推进到了音视频多模态的实时互动。</p><p>本期节目,我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验,深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界,分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角,提出了面向开发者的 GPT-4o 和面向用户的 ChatGPT 能力可能存在区别的提醒,以及在开发多模态 AI 产品时需要注意到的技术细节。</p><p>从对话框到音视频,多模态的实时互动 AI 已成趋势。希望本期节目能对你有所启发。</p><h2>【本期主播与嘉宾】</h2><ul><li>史业民:实时互动 AI 创业者,前智源研究院研究员。</li><li>朱峰:「津津乐道播客网络」创始人,产品及技术专家。</li></ul><h2>【相关信息】</h2><ol><li>史业民团队最新项目:<a href="https://world-model.ai">Pandora</a>,一个可通过语言交互控制的生成视频世界模型。</li><li>一起探索人和 AI 的新连接方式!RTE 开发者社区将在 6 月 22 日、23 日,联合 Founder Park 在北京举办线下的 AGI Playground 活动,边玩边探索 AGI 和 RTE 实时互动的新可能。加入社区微信群,还可以提前获取活动消息,抽免费活动门票。关注「RTE 开发者社区」微信公众号,在后台回复「小助手」即可入群。</li></ol><h2 id="-">【制作团队】</h2><blockquote><p><em>后期 / 卷圈</em><br><em>监制 / 姝琦</em><br><em>产品统筹 / bobo</em><br><em>联合制作 / RTE开发者社区</em></p></blockquote><h2>关于「编码人声」</h2><p>「编码人声」是由「<a href="https://r.daofm.cn/agora">RTE开发者社区</a>」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。<br>录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR...