
0:000:00
<p>【关于播客】</p><p>欢迎大家一同加入出埃及记的旅程!关注底层逻辑,剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目,我们会邀请全球顶尖院校的博士生或初创公司的创始人,一起聊聊人工智能等计算机科学或其他交叉领域的最新动态,分享他们的研究工作和相关洞察。</p><p>欢迎大家订阅收听,和关注我们的同名微信公众号,追踪最新内容。</p><p>【关于本期】</p><p>AI领域近期最热的新闻之一莫过于5月中OpenAI发布GPT-4o和6月11日WWDC上苹果发布覆盖全产品线的生成式AI技术。相较于之前版本,最大的升级在于人机交互体验的改善。GPT-4o的特点可以被总结成三个方面:一是全模态交互,意味着它能够无缝处理文字、语音、图片和视频等多种输入模态,并能够灵活地输出各种模态的结果;二是实时响应,减弱甚至消除了以往大模型的延迟问题,实现了真人对话般的即时互动;三是情感识别与表达,不仅能够理解用户的情绪,甚至能够捕捉到用户的呼吸节奏,其输出内容的语气和情感表达也几乎与真人无异。GPT-4o设计的核心目的就是为了更接近人机交互的终极目标,使之成为像是在和真人交互一样的AI Agent。</p><p>在GPT-4o发布前一周多,我们正巧与两位HCI方向的博士生朋友,交流HCI领域的研究工作者是怎样看待ChatGPT和Agent的产品形态和未来方向,当前的AI与人类交互有哪些问题,以及Agent的未来会是怎样?</p><p>【嘉宾介绍】</p><ul> <li>刘星宇:加州大学洛杉矶分校HCI lab博士生,师从Xiang Anthony Chen。本科毕业于卡耐基梅隆大学统计、机器学习与HCI专业。研究方向曾经关注无障碍设计,近期聚焦人与包括chatbot/agent在内的人工智能的交互。曾获亚马逊博士奖学金、ACM UIST 最佳论文奖、两项ACM CHI最佳论文荣誉奖、ED Rice 杰出硕士生奖和加州大学洛杉矶分校杰出硕士论文研究奖。曾在Meta Reality Lab、Google和Snap Research进行研究实习。</li> <li>马家驹:斯坦福大学计算机科学系博士生,师从Maneesh Agrawala教授。本科毕业于布朗大学计算机科学与罗德岛设计学院工业设计双学位。研究方向聚焦于构建全过程协助用户的创意支持工具。研究工作得到...