人形机器人通用大模型的破局者智在无界如何用互联网视频解决数据稀缺之困 - 敢想科技说

今天咱们来聊聊一个话题人形机器人！你瞧瞧，现在AI圈里啥都敢吹，动不动就说机器人要统治世界，结果呢？搞半天，连个简单的家务活都干不利索，动不动就给你来个翻车现场。为啥？核心问题就俩字数据！没数据，机器人就像没吃饱的孩子，软趴趴的啥也干不了泛化差，又让它像只没头苍蝇，遇上新环境就懵圈。今天，我就带你们走进一家公司智在无界，听听他们怎么用互联网视频这把万能钥匙，把这矛盾给解了。准备好没？走起！话说回来，数据稀缺这问题，可真不是小事。咱们想想，要让机器人像个真人一样行动，得喂它海量数据，从拿杯子到开冰箱，样样都得练。可现实呢？采集数据简直是噩梦！派真机去扫街？人力成本高得吓人，存储费用蹭蹭涨，比养个娃还烧钱。更糟的是，即便数据堆成山，机器人一遇新环境就露馅儿比如教它在厨房端盘子，换个餐厅就傻眼，盘子摔一地。这不就是典型的纸上谈兵嘛！泛化能力差，让实用化成了空谈。老田我见过太多AI项目卡在这儿，投资人砸钱砸到手软，用户抱怨满天飞，真是尴尬癌都犯了。好，现在主角登场智在无界。这家北京公司，2025年1月才成立，但创始人卢宗青可不是省油的灯。这位北大计算机教授，以前是智源研究院的大拿，负责过国家级智能体项目，团队里一堆智源老将，玩转强化学习计算机视觉机器人控制这些硬核领域。今年初，他们刚拿了数千万元融资，联想之星领投，智谱Z基金燕缘创投彬复资本跟投，势能资本当财务顾问。钱用哪儿？搞核心技术！卢教授告诉我，他们盯死了人形机器人的两大能力操作和运动，然后捣鼓出一套三层模型系统具身多模态大语言模型多模态姿态大模型和运动模型，外加一个自学习框架。听着高大上？别急，老田用大白话给你拆解。核心创新在哪？数据来源！传统路子靠真机数据，费力不讨好智在无界呢？直接从互联网视频里淘金。YouTube抖音上跳舞做菜修东西的视频海了去，他们解析这些人类动作序列，教机器人模仿。比如看到人伸手端杯子，模型就学这连贯动作伸手抬臂抓取，再结合空间特征理解环境。这叫跨模态迁移从人类行为到机器人动作，无缝切换。他们研发的Video Tokenizer技术更绝，把视频流切成时空视觉token单元，精准捕捉逻辑。比方说，第一人称视角下抓苹果，模型能推理出方位变化肢体协调，不像其他模型那样瞎蒙。这路子省了真机采集的麻烦，数据丰富又多元，成本大降老田觉得，这简直是白嫖互联网...