S1E02｜Figure 01背后的具身智能：解析VLM、基础模型、硬件与交互 - 出埃及记Exodus

【关于播客】欢迎大家一同加入出埃及记的旅程！关注底层逻辑，剖析前沿创新。出埃及记是一档从技术视角分析前沿科技进展的播客节目，我们会邀请全球顶尖院校的博士生或初创公司的创始人，一起聊聊人工智能等计算机科学或其他交叉领域的最新动态，分享他们的研究工作和相关洞察。欢迎大家订阅收听，和关注我们的同名微信公众号。;p【关于本期】2024年3月13日，Figure AI与Open AI合作推出的Figure 01人形机器人视频在社交媒体上热传。这段长达2分35秒的视频展示了机器人惊人的理解、判断、行动和自我评估能力。对比他们今年2月发布的机器人双腿行走和拿起塑料箱的视频，最新视频展示的人形机器人具有视觉能力并能表述所见画面，并采用端到端的神经网络，在接受人类的提问后，可以在“思索”2~3秒顺畅作答，手部动作的速度则接近人类。从OpenAI 宣布介入与之合作，到今天它们共同推出一个能够自主对话和决策的机器人，只有13天。在人工智能领域，国际上已有共识，即下一个重要挑战，就是实现具身智能（Embodied Intelligence），即能理解、推理并与物理世界互动的智能系统。全球范围内AI领域的巨头和风投机构的火力在今年也从软件卷入了门槛更高回报周期更长的硬件。我们也在这一期请到了机器人相关领域的三位博士生小伙伴，来跟我们分享机器人背后的视觉语言模型（VLM）、机器人领域的基础模型（foundation model）以及与之对应的精密的人形机器人都是什么？机器人与人的交互和“世界模型”又是怎样的？机器人精密控制的硬件是如何实现的？【嘉宾介绍】<ul> <li><a href="https://missinglight.github.io/">蔡易林</a>（推特：@Yilin_Cai98）：佐治亚理工大学机器人学博士生，本硕毕业于上海交通大学和卡内基梅隆大学机器人研究所。研究聚焦于机器人灵巧操作、软体机器人和医疗机器人。</li> <li><a href="https://zhenyujiang.me/">江振宇</a>（推特：@SteveTod1998）：德州大学奥斯汀分校计算机系博士生，师从 Yuke Zhu。本科毕业于清华大学电子系。研究聚焦于机器人视觉和机器人学习。目前在英...