速途网专访(报道:王佩)一只搭载全景相机的机器狗正尝试理解红灯停绿灯行的含义,而在它背后,一群顶尖 AI 科学家正试图用 " 以人为中心 " 的新范式,重新定义机器人与物理世界的交互方式。
" 现有的本体硬件与实际需求仍存在较大差距。" 面对速途网关于技术路线的追问,大晓机器人董事长王晓刚直言不讳。

图:大晓机器人董事长王晓刚
在这场采访中,王晓刚系统阐述了大晓机器人的技术路线——具身智能被期待拥有一个强大的 " 大脑 ",这源于过去几年在大语言模型和多模态模型上取得的突破,大家期待将这种语言模型的能力赋予机器人,以实现通用化能力。
但是,我们能够看到现有技术路线的明显缺陷,包括 VLA 模型。
VLA 模型是以机器为中心的,通过输入指令、图像和视频,直接输出动作,它不太需要去理解真实的物理世界和物理规律。我们期待将来有一个更强的 " 大脑 " 能去理解世界,这就是大晓提出的世界模型,与之伴随的是 ACE 环境式采集范式。
王晓刚表示,以前以机器为中心,基于不同物理结构的本体采集真机数据,很难综合得到一个比较通用化的 " 大脑 "。现在环境式采集 " 以人为中心 ",通过第一视角、第三视角和多模态数据,更好地对人和物理世界的交互进行建模,并利用这些数据训练我们的世界模型。简单粗暴地使用端到端或 VLA 并不能解决具身智能对 " 大脑 " 的期望。
特斯拉 " 视觉方案 " 路线与大晓的 " 世界模型 "
像特斯拉和 Figure AI 提出的所谓 " 视觉方案 ",只有视觉维度也会存在缺陷。在王晓刚看来,视觉确实是机器人理解世界的第一步,但要真正掌握物理规律、实现与人的自然交互,触觉、压力等力学感知必不可少。
具身智能的核心,本质是研究 " 人与物理世界如何接触 "。对人体的理解,不能只看外在动作,还要洞察力的传递、肌肉的协作。对世界的建模,也不能脱离人的需求和交互场景,毕竟我们所处的世界本就是围绕人建立的。
过去很多技术研发,只是让机器人 " 完成任务 ",却没有记录人与环境真实的交互逻辑。比如打拳、跳舞或许能脱离具体环境,但穿衣、递物这些日常动作,核心是人与物体的力感反馈和精准配合,这才是真正的难点。

大晓提出的 " 世界模型 " 更像是一个理解物理世界的 " 大脑 "。该模型分为三部分:多模态数据融合、复杂行为生成与预测功能。通过这三者的结合,机器人不仅能理解环境,还能生成具备物理和因果一致性的长时序行为。
与特斯拉从自动驾驶继承而来的纯视觉方案不同,大晓强调多模态融合的必要性。" 自动驾驶场景中不会发生物理接触,而具身智能需要与周围物体和环境产生物理接触,因此必须纳入其他维度的信息。" 王晓刚解释道。
数据革命:以人为中心的环境式采集
传统机器人数据采集面临两大困境:真机数据采集效率低下,仿真数据与真实差距过大。

大晓的解决方案是 " 环境式采集 " ——让人戴上第一视角传感器,结合周围第三视角摄像头,记录人在真实生产生活中的行为。" 采集效率会非常高,且能在真实场景中完成,还能记录人在长程、复杂环境下完成的动作。" 王晓刚表示。
这种方式与特斯拉和 Figure AI 近期采取的数据采集方式有相似之处,但大晓有更多环境视角数据,并通过世界模型进一步放大了数据价值。" 通过世界模型,我们能将有限的真实采集数据迅速放大。"
今年年初,团队发布了 Ego Life 数据集,记录了人们在真实环境中数百小时的数据。此外,他们还与西南设计院合作,获取大量房屋户型数据,用于训练机器人在不同家庭环境中的适应能力。
落地逻辑:从机器狗到家庭场景的渐进路径
具身智能的落地路径一直备受关注,大晓选择了一条从易到难、从 B 端到 C 端的渐进式路线。
短期来看,搭载导航能力与各类 AI 应用的四足机器狗是规模化落地的突破口。" 此前这类产品未能广泛应用,很大原因在于空间自主能力不足。" 王晓刚指出。
中期目标则聚焦于工业与商业服务场景,特别是闪购仓、前置仓等物流场景。这些场景需要大量人力支持 7×24 小时服务,机器人具备较强的可复制性。
家庭场景被列为远期目标。" 我们期待机器人完成一些复杂任务,但安全性是关键问题。" 王晓刚坦言," 就像自动驾驶领域有主动安全机制,机器人进入家庭后,如果碰到人,责任该如何界定?这些都是需要解决的问题。"
行业卡位:头部未定,格局远未成型
尽管机器人赛道热度空前,但王晓刚认为行业头部卡位远未完成。
" 从技术路线来看,目前机器人行业原有的技术路线存在明显缺陷。" 他举例说," 特斯拉和 Figure AI 在过去两三个月内,都放弃了以真机为主的技术路线,转向以视觉为主的技术路线。"
在产业链层面,机器人行业的分工也尚未完善。" 从零部件、传感器到计算芯片等环节,都存在很大的垂直整合空间。" 王晓刚指出,当前机器人成本依然很高,在质量、可靠性、一致性等方面,行业还处于相对初期的阶段。
这种不成熟的状态,反而给了新入局者机会。大晓背靠商汤积累的客户资源与技术能力,试图在具身智能领域找到自己的生态位。" 商汤过去十几年积累了几千家客户,覆盖众多行业方向,但此前缺少机器人载体的软硬件平台。"
团队底色:教授创业团的默契
大晓团队的组成颇具特色——汇聚了陶大程等多位顶尖 AI 科学家。这支以教授为主的团队,有着深厚的学术背景与彼此间的默契。

" 我和大程在硕士阶段跟着汤老师读书时就是室友,有很好的默契;其他几位老师也都是我们的学生。" 王晓刚透露。这种基于师生关系的信任网络,成为团队协作的重要基础。
在王晓刚看来,具身智能赛道仍需要持续创新。" 很多教授自己也想过创业,这些明星教授任何一位都可以去创业,但今天我们要团结起来,集中科研力量和创新能力去做更大的事。"
团队分工上,陶大程主要负责带领教授团队聚焦具身智能方向的持续研究创新,王晓刚则负责公司整体战略规划与商业落地。" 这样就能把研究上的领先性、创新性与现实中的落地工程化能力结合起来。"
写在最后
商汤布局的 "1+X" 战略正在显现其前瞻性。大晓作为 "X" 中的重要一环,承载着一代 AI 科学家由创新技术向产业落地的初心。在商汤的方舟平台已接入几十万路摄像头数据的背景下,一旦具身智能体与方舟打通,上百种 AI 应用都可以迁移到具身平台上。
在速途网看来,具身智能的竞赛不仅是技术路线的比拼,更是数据采集范式与产业生态的较量。当特斯拉和 Figure AI 转向视觉路线时,大晓坚持的多模态融合与以人为中心的 ACE 范式能否成为破局关键,将决定其在即将到来的机器人量产之年能占据怎样的位置。
世界模型开源、与国产芯片厂商合作、构建自己的数据采集体系——大晓正在下一盘多维度的棋。而棋盘的另一端,众多参赛者也在加速布局。具身智能的头部卡位战,或许才刚刚开始。


登录后才可以发布评论哦
打开小程序可以发布评论哦