十字路口Crossing 6小时前
给机器人卖水的人,成了独角兽
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

具身智能的卖水人生意

作者 : 一涛

编辑 : Koji

排版 : NCon

淘金热里最确定的生意不是淘金,是卖水。

这个故事已经被讲过太多遍,但它之所以反复被提起,是因为它指向一条非共识的认知:在一个高投入、高风险的赛道里,所有参与者都需要、但没人愿意自己做的东西,往往是最好的生意。

具身智能现在就处在自己的淘金热里。2025 年以来,本体公司融资造机器人,大模型团队融资训大脑,几百亿资金涌进这条赛道。

但随之而来的问题是:机器人要学会在物理世界里干活,训练数据从哪来?

大语言模型能吃互联网文本长大,机器人需要的物理交互数据却几乎不存在。真机采集效率极低,一年下来只够训练一个抓取动作的泛化。按光轮智能创始人谢晨的说法:

如果大语言模型的数据成熟度打 60 分,机器人数据不到 0.6 分。

2026 年 3 月,光轮智能完成 10 亿元 A++ 及 A+++ 轮融资,估值突破 10 亿美元。本轮融资引入了新希望集团、鼎邦投资、奥克斯、鼎石资管等产业方,以及建投华科、国方创新等政府及国资背景资本。本次融资距离上一轮时隔仅 2 个月,随着本轮融资完成,光轮智能也成为全球具身数据的首个独角兽企业。

这家 2023 年成立的公司不造机器人也不训大模型,做的是用仿真技术批量生产机器人的训练数据——给所有淘金者供水。

卖水人的故事很吸引人,但有一个前提很少被追问:水的供给会一直稀缺吗?

上一个靠给 AI 供数据做成大生意的公司叫 Scale AI。2019 年 GPT-2 刚发布时,大模型领域的数据基建远未成熟,Scale AI 抓住那个窗口期成为 OpenAI 最重要的数据供应商。七年过去,Scale AI 的 2025 年营收预期达到 20 亿美元,估值一度到 290 亿美元。

但它在大模型训练管线中的角色,已经从「不可替代」变成了「有价值但不唯一」。Meta 2025 年以 143 亿美元收购了它 49% 的股份,OpenAI 随后就开始减少对它的依赖。

现在的光轮和六七年前的 Scale AI 处在高度相似的位置上:行业爆发前夜,所有人都缺数据,专业第三方供应商的价值处在最大化的周期。

机器人为什么缺数据

训练一个大语言模型,互联网上有海量的数据可以直接使用。

但训练一个机器人在真实世界里抓起一个杯子,需要的数据则完全是另一回事。要有人穿上设备、遥控真实的机械臂,把每一次抓取的完整过程录下来。包括手臂轨迹、力的反馈、指尖接触的角度,都是具身智能稀缺的数据。

据报道,智元机器人在上海投建了超过 4000 平米的数据采集工厂,日均产出 3 万至 5 万条数据。这个数字听起来不少,但只够训练一种动作的泛化。比如从桌面不同位置抓起零件,换一种零件、换一种动作,就需要重新采集。

它石智航创始人陈亦伦曾公开表示:

具身智能如果要真正可用,至少需要 1000 万小时级别的数据量。

银河通用团队的判断更激进,认为所需规模可能达到万亿级。按目前的采集速度,这个缺口几乎不可能靠堆人力和设备来填满。

采集难只是问题的一面。另一面是,互联网上大量现成的数据对机器人来说几乎没法直接用。YouTube 上有海量人类操作视频,但这些视频是给人看的。

比如,一个最简单的拧瓶盖的视频,人类一看就知道怎么回事,但机器人看了只知道瓶盖在转,并不知道手指在哪个角度发力、什么时候切换扭矩方向。

缺少了力反馈和精确位姿信息,这些视频对机器人训练的直接价值有限。

和自动驾驶做个对比能把这个困境看得更清楚。

自动驾驶之所以能走通数据驱动的路线,是因为汽车这个行业已经存在了上百年,这个存量硬件本身就是一个庞大的数据采集网络。路上跑的每一辆特斯拉,都能形成真实的行车数据。

具身智能没有这个前提条件。人形机器人还处在千台级交付的阶段,不存在一个可以「顺便」产生海量交互数据的庞大装机量。

就算数据采到了,也未必好用。这是数据荒的第二个独立卡点。

同样是抓取零件,A 工厂的零件摆放方式、光照条件、桌面材质和 B 工厂完全不同。在 A 工厂采集的数据训出来的模型,到 B 工厂可能直接失效。

获取真机交互数据极度依赖昂贵的硬件成本和场景部署,且在复杂操作、极端情况和长尾任务中数据严重稀缺,导致训练出的模型常常「实验室完美、真实世界失灵」。

这是所谓的 Real2Real Gap,不同真实场景之间的分布差异。

「仿真派」,在虚拟世界造数据

既然真机数据采不动,一个自然的想法是:在虚拟世界里造数据。在仿真环境中搭建场景、模拟物理交互,绕开真机采集的天价成本。

具体做法分几步。先在真实世界里测量物体的物理参数;再在虚拟世界里还原出物理上足够真的场景;然后让人在虚拟场景里操作、录下动作轨迹;再用算法把少量轨迹自动扩增出海量变体。

这条路线听起来很通顺,但它同时引入了一个新问题:仿真环境和真实世界之间的物理差异,也就是 Sim2Real Gap

虚拟世界里的摩擦系数、重力响应、碰撞反馈都是模拟出来的,如果模拟不够精确,机器人在里面学到的动作到了现实就会失败。

Sim2Real Gap 和前面提到的 Real2Real Gap 在本质上是同构的:都是分布不匹配。

区别在于,Real2Real Gap 是两个真实场景之间的差异,你只能靠采集更多场景的数据来缩小它;Sim2Real Gap 是虚拟和现实之间的差异,可以通过提高仿真精度来缩小。

光轮选择的就是后者。

据报道,光轮自研物理仿真引擎,同时建立了「物理测量工厂」,用设备测量真实物体的重量、摩擦力、弹性等物理参数,在仿真环境里还原,反复校验两者的一致性。

在非刚体资产(线缆、布料等柔性物体)上投入尤其大,这类物体的物理模拟难度远高于刚体,而工业场景恰恰大量涉及。

光轮宣称达到了「亚毫米级精度」,但公开资料中找不到与主流物理引擎(如 NVIDIA PhysX、MuJoCo)的定量对比来支撑这个说法。亚毫米精度指的是位置精度、力精度还是接触面模拟精度,不同维度的含义差异很大,需要更精准的定义。

数据量的放大是光轮的第二个卖点。它在国内建了仿真遥操作基地,操作员在虚拟环境里控制虚拟机械臂完成任务,系统记录操作轨迹,再用算法自动变换物体位置、角度、环境参数,从少量数据生成大量变体。据报道,这条产线每周能产出上万小时的数据。

第三是仿真评测平台 RoboFinals,让训练出来的模型在仿真环境中接受大规模测试。这个环节在行业内争议最小。

即使对仿真训练数据持保留态度的团队,也承认规模化评测只有仿真才能做到——你不可能在真机上跑一万次同样的测试来验证泛化性。

这套流程已经有了落地案例。据 NVIDIA 技术博客,光轮为 NVIDIA 的 GR00T N1 人形机器人基础模型提供了全套合成数据支持,机器人在汽车工厂中完成了零部件质检后的装载和搬运任务。

光轮生产的数据不绑定某一款机器人,同一套数据可以迁移到不同本体上使用。如果这个跨本体复用能持续验证,将是其商业模式中最有规模效应的部分。

争论和替代路线

仿真路线的反对者并不少。反对者的核心担忧是仿真环境和真实世界之间的物理差异(Sim2Real Gap)。

虚拟世界里的物理特性都基于模拟,机器人在一个「失真」的虚拟世界里学会的动作,到了真实世界可能直接失败。

自变量机器人明确表示「坚持真机数据闭环路线,拒绝依赖仿真数据」;集智联机器人 CEO 包文涛在接受采访时也提到,「当前行业仍以真机采集为主,视频与合成数据因技术不成熟,暂无法替代真实交互数据的价值」。

OFweek 在一篇行业综述中把这场争论总结为一个「不可能三角」:

真实性、规模化、低成本,三者目前无法兼得。

光轮创始人谢晨对真机派的回应相当直接,他的观点是「屁股决定脑袋」:

本体公司的商业模式是卖机器人硬件,推崇仿真就很难说服客户花钱采购更多真机来采集数据。

这个观察有道理,但反过来说也成立。每一方的技术判断都或多或少受自身商业位置的影响,把对手的立场全部归结为商业动机,本身也是一种利益相关的修辞。

2026 年 2 月,NVIDIA 发表的 EgoScale 研究给出了一个关键数据点:用两万多小时的第一人称视角人类操作视频做预训练,配合 54 小时的人机对齐数据做中间训练,就让一个 22 自由度灵巧手的任务成功率比基线提高了 54%。

更重要的是,EgoScale 论文发现了一个对数线性的缩放定律——人类视频数据量和模型验证损失之间存在可预测的关系。这意味着只要持续增加人类视频数据,机器人性能就能稳定提升。

这个发现同时动摇了真机派和仿真派的极端立场。它证明了海量真机遥操作数据未必是必需品,人类日常操作视频加上少量对齐数据就够用;但它也暗示,仿真合成数据在这条路线下可能并不处于训练管线的核心位置。

第一视角视频数据正在成为 2026 年机器人训练的热门路径。NVIDIA 自己的 GR00T N1.7 模型已经把 EgoScale 的两万小时人类视频数据纳入了预训练;Google DeepMind 的 Genie 3 世界模型也在探索用生成式方法大规模合成第一人称交互数据。

谢晨对此有自己的叙事框架。他把数据分成金字塔结构

底层是互联网和第一视角数据,中层是仿真合成数据,顶层是真机数据。在这个框架里,仿真处在「中腰」位置,量比真机大,质比视频高。

这个定位对光轮最有利,但也最需要证明。如果第一视角视频数据加少量对齐数据被证明就够用了,那金字塔的中层就有可能被压扁。仿真的角色不会消失,但会从训练的主路径收缩为辅助工具和评测平台。

终局在谁手里

光轮目前的商业进展是实打实的。光轮 2025 年全年营收实现 10 倍增长,2026 年 Q1 单季预计收入超过去年全年。客户覆盖 NVIDIA、Google DeepMind、Figure AI、1X Technologies、字节、阿里、智元、银河通用、丰田、博世、比亚迪。国际主要具身智能团队中超过 80% 的仿真资产与仿真合成数据来自光轮。

在数据荒最严重的窗口期,这是一个非常强的卡位。

但卡位不等于终局。

第一重风险来自大客户自建。NVIDIA 自己有 Isaac Sim 仿真平台,目前和光轮是合作关系,他们联合开源了 Isaac Lab-Arena 基准框架。但 NVIDIA 过去在 GPU 生态里反复做过同样的事:先和第三方合作培育生态,等到关键能力被验证,再逐步收归自有或扶持多家供应商分散依赖。Isaac Sim 本身就在持续迭代,光轮提供的资产和数据能力,NVIDIA 未必不会在未来的平台版本里自己覆盖。

阿里、字节这类有算力也有场景的公司正在大幅加码具身智能,一旦它们的机器人部署量上来,自建数据能力的动力会比从外部采购更强。

第二重风险来自技术路线的收敛方向。如果 EgoScale 代表的「人类视频预训练 + 少量对齐数据」路线被证明是主路径,仿真合成数据在训练管线中的权重就会下降。虽然光轮在评测环节的价值几乎不受影响,但评测市场的天花板和数据供应市场不在一个量级。

谢晨对此有过一个说法:

终局状态下客户可能不再需要光轮的数据,但一定需要仿真环境来自我修炼。光轮做的不是数据工厂,而是数据引擎。

换句话说,光轮假定仿真环境本身会成为机器人智能的永久基础设施。

这个赌注是否成立,无法确定。它取决于一个光轮自己无法决定的变量:具身智能的技术路线最终收敛到哪里。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 融资 物理 互联网 供应商
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论