VLA已死，WAM当立：机器人的GPT时刻到了吗？

就在刚刚过去的 4 月底，红杉资本举办的 AI Ascent 2026 大会上，英伟达机器人方向负责人 Jim Fan 抛出了一个极具争议的论断：" 视觉语言模型 VLA 已死，世界动作模型 WAM 当立。" 他还预测，未来一到两年内，机器人学习的主要数据来源将从昂贵的人类遥控操作，转变为互联网上随手可得的第一视角人类视频。

这番话一出，立刻在具身智能领域引发轩然大波。

而就在 Jim Fan 发言前不久，国内具身智能公司银河通用联合英伟达、清华、北大发布的 LDA-1B 模型，已经明确走出了 " 抛弃条件反射式模仿，走世界模型路线 " 的一步。与此同时，生数科技推出的通用世界行动模型 Motubrain，在 WorldArena 与 RoboTwin 2.0 两项国际权威榜单上双双登顶。

Jim Fan 的发言和科技公司的实践让有人高呼 " 终于找对了方向 "，也有人冷笑 " 英伟达又在为自己造势 "。支持者认为，这是机器人从模仿走向理解的必经之路；反对者则指出，VLA 在精细控制上的优势依然不可替代。

那么，这场关于机器人大脑的路线之争，到底在争什么？VLA 真的已经是具身智能的昨日黄花了吗？这场技术之变，对具身智能初创公司有什么影响？

要理解 WAM 的价值，得先搞清楚 VLA 的问题出在哪。

VLA 的训练逻辑很直观：模仿人类遥控操作。你教它拿红色的杯子，它就记住了红色杯子的画面和对应的动作。下次看到同样的杯子，它就能拿起来。

但现实不是实验室。杯子颜色、光线会变化。这些在人类看来微不足道的变化，对 VLA 机器人来说却是巨大的挑战。换言之，VLA 学习到的是一种极其脆弱的、标准化的 " 条件反射 "，很难推广到复杂的现实场景。

WAM 提供了完全不同的思路。它的核心是预测和理解。WAM 试图让机器人在执行动作之前，先在内部模型里预演一下：这个动作之后，物体会怎么移动，液体会怎么流动，整个场景会发生什么变化。

这种物理想象力带来的第一个突破，是泛化能力的跃升。一个训练充分的 WAM 机器人，即使走进一间从未见过的厨房，也能基于对重力、摩擦力、惯性的理解，做出合理判断。HarmoWAM 的研究表明，在背景、位置、物体语义都发生变化的零样本场景中，WAM 的表现比之前的 SOTA 级别 VLA 模型提升了 33%。

泛化能力的突破之外，WAM 还完成了另一件更具产业意义的事情：对数据来源的结构性松绑。

VLA 长期被困在遥操作数据这座昂贵的小岛上，每一帧操作数据都需要真人遥控、真机采集。而 WAM 可以像大语言模型学习互联网文本一样，去学习海量的、现成的、每天都在产生的人类第一视角视频。这意味着，WAM 让机器人第一次拥有了从互联网视频中自学物理世界的可能性。智在无界的 Being-H0.7 直接用 20 万小时的人类视频进行预训练，证明了这条路的可行性。银河通用的 LDA 模型更进一步，把仿真数据、人类视频和机器人操作数据混在一起联合训练，打破了行业长期存在的 " 完美数据迷信 "。

不仅如此，WAM 还在另一个长期困扰机器人领域的难题上取得了进展，那就是长程任务能力。VLA 通常只能处理两到三个动作的简单任务，时序稍有拉长就容易迷失。而 WAM 的表现已经开始脱离 Demo 阶段。生数科技的 Motubrain 已经能够完成十个原子动作级别的复杂任务，这意味着机器人在真实场景中具备了更连续、更鲁棒的执行能力。

国内团队在这条赛道上的进展速度，值得关注。银河通用的 LDA-1B 有清华大学、北京大学和英伟达的联合署名；生数科技的 Motubrain 登顶两项国际榜单；智在无界的 Being-H0.7 综合排名全球第一。

与此同时，海外前沿实验室同样在快速推进。英伟达提出的 DreamZero 在真机实验中展现出对新任务和新环境的强大泛化能力，较顶尖 VLA 模型提升 2 倍以上。

在这个新赛道上，国内和国外几乎是站在同一起跑线上。但热闹背后，一个更根本的问题浮出水面：VLA 真的该退场了吗？

WAM 的方向是对的，但 "VLA 已死 " 这个判断，需要冷静审视。

一方面，WAM 确实展现了令人兴奋的技术潜力，它让机器人从机械模仿走向理解、预测物理世界，从依赖昂贵遥操数据转向利用海量人类视频。智在无界用 20 万小时人类视频预训练的 Being-H0.7，能够在 6 项国际评测中拿下综合排名第一，这在前 VLA 时代是不可想象的。

另一方面，这套判断背后也有一套商业叙事。理解这一点，不妨先看看到底是谁在说 "VLA 已死 "。

英伟达是全球最大的 AI 芯片供应商。无论 VLA 还是 WAM，底层算力都跑在它的芯片上。但两者的算力消耗不在一个量级。WAM 需要对海量视频数据进行预训练，推理时还要进行复杂的物理模拟或扩散生成，对 GPU 算力的需求远超 VLA。Jim Fan 力推 WAM，对英伟达来说意味着更大的芯片出货量和更高的单价。一家芯片公司，当然希望市场转向那些更 " 吃 " 算力的技术路线。

但作为观察者，我们在接受一套技术叙事时，有必要区分哪些是客观的技术突破，哪些是被商业立场放大的预期。抛开商业立场，WAM 自身也还有硬骨头要啃。

一方面，由于视频生成目标更关注像素级一致性而非关节级精细控制，在需要毫米级定位或双臂协同的精密装配任务中，WAM 的表现明显弱于专注动作优化的 VLA 模型，且推理延迟虽然经过优化仍高于后者。

另一方面，数据与算力门槛也不低。联合训练视频与动作需要海量真机交互数据和高昂的扩散模型训练成本，远非所有团队都能承担。

并且，当任务涉及抽象语言指令或复杂社交语境时，纯物理世界建模容易看懂画面但听不懂人话。这说明，WAM 虽然在 " 理解物理世界 " 这个方向上迈出了重要一步，但在 " 走进现实 " 这件事上，还有相当长的路要走。而耐人寻味的是，这恰恰是 VLA 的舒适区。

事实上，VLA 在现阶段仍有 WAM 难以替代的价值。

先看部署效率。在需要毫米级精度和实时力度调整的任务中，比如精密装配、手术辅助，VLA 的轻量化架构更容易实现实时部署。VLA 的本质是端到端的 " 观察－动作 " 映射，推理时不需要复杂的物理模拟，计算开销小、响应速度快。一个成熟的 VLA 系统可以在边缘设备上以较低的算力成本运行。

再看工程成熟度。VLA 经过一年多的快速发展，模型架构已经相当成熟，有大量开源模型可供参考，生态工具也比较完善。从数据采集、模型训练到部署推理，整个流程已经有了相对标准的方案。一个创业团队可以在较短时间内搭建起一套可用的 VLA 系统。WAM 的架构更复杂，训练更不稳定，推理计算开销大，工程化落地的门槛明显更高。

还有一个容易被忽视的维度：与现有工业体系的兼容性。在工业机器人领域，大量自动化任务不需要复杂的物理理解，只需要稳定、可靠、高精度的重复执行。VLA 的模仿学习范式与工业场景的需求天然契合。企业可以通过少量的示范，教会机器人完成特定的操作任务。

所以，更可能发生的演进路径不是 "VLA 被淘汰 "，而是两者的深度融合。"VLA 已死 " 是一个极具传播力的口号，但把它当成技术判决书来读可能为时过早。它更像是一声警钟，提醒行业不要停留在 VLA 的舒适区里，而是思考如何将物理理解的能力融入现有框架。

那么，就在 WAM 是否代替 VLA 的讨论正盛之时，那些押注 VLA 的创业公司，正在经历什么？

从 VLA 的崛起到被质疑 " 已死 "，中间不过半年多的时间。机器人领域的技术迭代速度，已经快到了让产业感到窒息的程度。对于家大业大的科技巨头来说，这或许只是研究方向的调整，但对于资源有限的初创企业而言，每一次 " 变天 " 都可能是一场需要重新押注的赌局。

这一切的起点，首先是研发路线上巨大的沉没成本风险。

过去一年，大量初创企业围绕 VLA 构建技术栈，投入重金采购遥操作设备，组建专门的数据采集团队。创始人相信，积累高质量的遥操作数据就是未来的护城河。自变量机器人在 2023 年底成立后，先后完成了 B 轮近 20 亿元融资，累计融资超过 40 亿元，其中相当一部分用于数据采集工厂建设和真机数据采集团队搭建。智平方在一年内完成 12 轮融资，累计融资金额超过 10 亿元，其自建产线于 2025 年 9 月投产，同年 12 月实现单月百台级 AlphaBot 2 交付。毫无疑问，这些数字背后是一整套围绕 VLA 建立起来的资产、团队和认知框架。

然而，当 WAM 的浪潮袭来，这些投入的价值正在被重新评估。对于刚刚完成大额融资、团队规模已扩张至数百人的公司来说，方向调整意味着巨大的沉没成本。

技术路线的切换很快在人才市场上引发了连锁反应。

VLA 时代，行业需要的是擅长模仿学习、遥操作数据采集的人才；WAM 时代，人才需求转向视频理解、物理仿真、世界模型构建。技能组合的快速变化，让创业公司刚刚建立起来的团队结构面临重构压力。

并且，技术路线的快速切换意味着人才市场的供需关系也在剧烈波动，WAM 方向变得热门的同时，相关人才的溢价也在迅速攀升，而原本高薪聘请的 VLA 团队则面临流失或转型的双重困境。《脉脉 2026 春招职场洞察报告》显示，2026 年 1 至 4 月，具身智能岗位量同比暴增 15 倍，平均月薪从 5.9 万元升至 6.2 万元。有从业人员透露，行业跳槽薪资涨幅可高达 150%。而对于一家资源有限的创业公司来说，既要在新方向上抢人，又要消化旧方向上的团队惯性，这种两头承压的局面并不容易应对。

比人才问题更直接的，是产品价值的存疑。

一个残酷的现实是，当技术路线半年一变，之前基于旧路线开发的产品可能突然就失去了市场价值。比如，那些基于 VLA 范式、依赖遥操作数据训练出来的机器人技能模型，在 WAM 的叙事下面临重新估值。如果未来机器人的主食真的是互联网视频，那这些用高昂成本训练出来的 " 私教 " 技能，还有多少客户愿意买单？

而所有这些问题，最终都会反馈到资本市场上。投资人的耐心和资本市场的窗口期，未必能跟上技术的节奏。

2026 年《中国投资发展报告》中给出了一个判断：人形机器人产业投资正进入 " 去伪存真 " 的关键阶段，估值逻辑正从概念炒作转向订单验证与供应链卡位。报告明确指出，中游整机制造商面临 " 技术路线尚未收敛的风险 "，市场给予的估值溢价取决于其模块化设计能力与软硬件协同优化水平。

换句话说，在技术路线还在剧烈变动的阶段，投资人对故事的容忍度正在快速下降。对于创业公司而言，这意味着融资不再只是讲一个足够性感的技术愿景，而是要在技术尚未收敛的环境中，同时证明自己的方向判断力和执行韧性。

回过头看，"VLA 已死 " 未必是事实，但它确实是一记警钟。

在这个行业，选对方向比埋头苦干重要得多。而选对方向的窗口期，正在变得越来越短。对于创业公司来说，这意味着必须在专注和灵活之间找到微妙的平衡；对于投资人来说，这意味着需要更加审慎地评估技术路线的可持续性，避免追逐短期的叙事热点。

机器人产业还处在早期阶段，技术路线远未收敛。今天的主流，明天可能就变成历史。WAM 的崛起是真实的，VLA 的价值也不会轻易消失。

宙世代

一起剪

相关标签