
0:000:00
<p>强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar,是Open AI击败Dota 2世界冠军战队OG的OpenAI Five,更是DeepMind击败李世石的AlphaGo,但由于在泛化性上的不足,学术与资本的关注度逐渐转冷,直到ChatGPT的出现,让人们发现强化学习与大模型结合所迸发出的泛化能力,强化学习一夜之间重新回到大众视野。在当前的Agent时代,Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候,不可避免的与形同黑箱的环境进行长时间且大量的交互,这种对数据的异步处理方式,越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师,跟我们分享他在用强化学习探索Agent道路上的心得体会。</p><p>出生于1992年的吴翼,在高三暑假代表中国参加国际信息奥林匹克竞赛,随后被清华姚班录取。2014年本科毕业后,他前往加州大学伯克利分校攻读人工智能方向,博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前,他加入了OpenAI工作了一年半,参与的游戏项目捉迷藏,是OpenAI 历史上视频点击率最高的视频。2023年,他创立边塞科技,用强化学习为更多人创造更好的智能体验。 2024年底,他受邀帮助蚂蚁集团成立了强化学习实验室。</p><p>关于吴翼老师参与的Open AI捉迷藏项目:Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)(<a href="https://openai.com/index/emergent-tool-use/">openai.com</a>)</p><p>本期节目就来听一听吴老师对于当下AI agent智能体发展的看法,吴老师也会提到他们正在构建的开源强化学习(决策模型与服务)平台Areal,这个平台可以支持各种类型的agent的学习和开发,他们团队也已经完成部分agent应用开发,甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。</p><p>本期节目由嘉宾主持<strong>Tim</strong>来Host,节目制作由<strong>晨歌</strong>完成。</p...