给机器人卖水的人，成了独角兽

具身智能的卖水人生意

作者 : 一涛

编辑 : Koji

排版 : NCon

淘金热里最确定的生意不是淘金，是卖水。

这个故事已经被讲过太多遍，但它之所以反复被提起，是因为它指向一条非共识的认知：在一个高投入、高风险的赛道里，所有参与者都需要、但没人愿意自己做的东西，往往是最好的生意。

具身智能现在就处在自己的淘金热里。2025 年以来，本体公司融资造机器人，大模型团队融资训大脑，几百亿资金涌进这条赛道。

但随之而来的问题是：机器人要学会在物理世界里干活，训练数据从哪来？

大语言模型能吃互联网文本长大，机器人需要的物理交互数据却几乎不存在。真机采集效率极低，一年下来只够训练一个抓取动作的泛化。按光轮智能创始人谢晨的说法：

如果大语言模型的数据成熟度打 60 分，机器人数据不到 0.6 分。

2026 年 3 月，光轮智能完成 10 亿元 A++ 及 A+++ 轮融资，估值突破 10 亿美元。本轮融资引入了新希望集团、鼎邦投资、奥克斯、鼎石资管等产业方，以及建投华科、国方创新等政府及国资背景资本。本次融资距离上一轮时隔仅 2 个月，随着本轮融资完成，光轮智能也成为全球具身数据的首个独角兽企业。

这家 2023 年成立的公司不造机器人也不训大模型，做的是用仿真技术批量生产机器人的训练数据——给所有淘金者供水。

卖水人的故事很吸引人，但有一个前提很少被追问：水的供给会一直稀缺吗？

上一个靠给 AI 供数据做成大生意的公司叫 Scale AI。2019 年 GPT-2 刚发布时，大模型领域的数据基建远未成熟，Scale AI 抓住那个窗口期成为 OpenAI 最重要的数据供应商。七年过去，Scale AI 的 2025 年营收预期达到 20 亿美元，估值一度到 290 亿美元。

但它在大模型训练管线中的角色，已经从「不可替代」变成了「有价值但不唯一」。Meta 2025 年以 143 亿美元收购了它 49% 的股份，OpenAI 随后就开始减少对它的依赖。

现在的光轮和六七年前的 Scale AI 处在高度相似的位置上：行业爆发前夜，所有人都缺数据，专业第三方供应商的价值处在最大化的周期。

机器人为什么缺数据

训练一个大语言模型，互联网上有海量的数据可以直接使用。

但训练一个机器人在真实世界里抓起一个杯子，需要的数据则完全是另一回事。要有人穿上设备、遥控真实的机械臂，把每一次抓取的完整过程录下来。包括手臂轨迹、力的反馈、指尖接触的角度，都是具身智能稀缺的数据。

据报道，智元机器人在上海投建了超过 4000 平米的数据采集工厂，日均产出 3 万至 5 万条数据。这个数字听起来不少，但只够训练一种动作的泛化。比如从桌面不同位置抓起零件，换一种零件、换一种动作，就需要重新采集。

它石智航创始人陈亦伦曾公开表示：

具身智能如果要真正可用，至少需要 1000 万小时级别的数据量。

银河通用团队的判断更激进，认为所需规模可能达到万亿级。按目前的采集速度，这个缺口几乎不可能靠堆人力和设备来填满。

采集难只是问题的一面。另一面是，互联网上大量现成的数据对机器人来说几乎没法直接用。YouTube 上有海量人类操作视频，但这些视频是给人看的。

比如，一个最简单的拧瓶盖的视频，人类一看就知道怎么回事，但机器人看了只知道瓶盖在转，并不知道手指在哪个角度发力、什么时候切换扭矩方向。

缺少了力反馈和精确位姿信息，这些视频对机器人训练的直接价值有限。

和自动驾驶做个对比能把这个困境看得更清楚。

自动驾驶之所以能走通数据驱动的路线，是因为汽车这个行业已经存在了上百年，这个存量硬件本身就是一个庞大的数据采集网络。路上跑的每一辆特斯拉，都能形成真实的行车数据。

具身智能没有这个前提条件。人形机器人还处在千台级交付的阶段，不存在一个可以「顺便」产生海量交互数据的庞大装机量。

就算数据采到了，也未必好用。这是数据荒的第二个独立卡点。

同样是抓取零件，A 工厂的零件摆放方式、光照条件、桌面材质和 B 工厂完全不同。在 A 工厂采集的数据训出来的模型，到 B 工厂可能直接失效。

获取真机交互数据极度依赖昂贵的硬件成本和场景部署，且在复杂操作、极端情况和长尾任务中数据严重稀缺，导致训练出的模型常常「实验室完美、真实世界失灵」。

这是所谓的 Real2Real Gap，不同真实场景之间的分布差异。

「仿真派」，在虚拟世界造数据

既然真机数据采不动，一个自然的想法是：在虚拟世界里造数据。在仿真环境中搭建场景、模拟物理交互，绕开真机采集的天价成本。

具体做法分几步。先在真实世界里测量物体的物理参数；再在虚拟世界里还原出物理上足够真的场景；然后让人在虚拟场景里操作、录下动作轨迹；再用算法把少量轨迹自动扩增出海量变体。

这条路线听起来很通顺，但它同时引入了一个新问题：仿真环境和真实世界之间的物理差异，也就是 Sim2Real Gap。

虚拟世界里的摩擦系数、重力响应、碰撞反馈都是模拟出来的，如果模拟不够精确，机器人在里面学到的动作到了现实就会失败。

Sim2Real Gap 和前面提到的 Real2Real Gap 在本质上是同构的：都是分布不匹配。

区别在于，Real2Real Gap 是两个真实场景之间的差异，你只能靠采集更多场景的数据来缩小它；Sim2Real Gap 是虚拟和现实之间的差异，可以通过提高仿真精度来缩小。

光轮选择的就是后者。

据报道，光轮自研物理仿真引擎，同时建立了「物理测量工厂」，用设备测量真实物体的重量、摩擦力、弹性等物理参数，在仿真环境里还原，反复校验两者的一致性。

在非刚体资产（线缆、布料等柔性物体）上投入尤其大，这类物体的物理模拟难度远高于刚体，而工业场景恰恰大量涉及。

光轮宣称达到了「亚毫米级精度」，但公开资料中找不到与主流物理引擎（如 NVIDIA PhysX、MuJoCo）的定量对比来支撑这个说法。亚毫米精度指的是位置精度、力精度还是接触面模拟精度，不同维度的含义差异很大，需要更精准的定义。

数据量的放大是光轮的第二个卖点。它在国内建了仿真遥操作基地，操作员在虚拟环境里控制虚拟机械臂完成任务，系统记录操作轨迹，再用算法自动变换物体位置、角度、环境参数，从少量数据生成大量变体。据报道，这条产线每周能产出上万小时的数据。

第三是仿真评测平台 RoboFinals，让训练出来的模型在仿真环境中接受大规模测试。这个环节在行业内争议最小。

即使对仿真训练数据持保留态度的团队，也承认规模化评测只有仿真才能做到——你不可能在真机上跑一万次同样的测试来验证泛化性。

这套流程已经有了落地案例。据 NVIDIA 技术博客，光轮为 NVIDIA 的 GR00T N1 人形机器人基础模型提供了全套合成数据支持，机器人在汽车工厂中完成了零部件质检后的装载和搬运任务。

光轮生产的数据不绑定某一款机器人，同一套数据可以迁移到不同本体上使用。如果这个跨本体复用能持续验证，将是其商业模式中最有规模效应的部分。

争论和替代路线

仿真路线的反对者并不少。反对者的核心担忧是仿真环境和真实世界之间的物理差异（Sim2Real Gap）。

虚拟世界里的物理特性都基于模拟，机器人在一个「失真」的虚拟世界里学会的动作，到了真实世界可能直接失败。

自变量机器人明确表示「坚持真机数据闭环路线，拒绝依赖仿真数据」；集智联机器人 CEO 包文涛在接受采访时也提到，「当前行业仍以真机采集为主，视频与合成数据因技术不成熟，暂无法替代真实交互数据的价值」。

OFweek 在一篇行业综述中把这场争论总结为一个「不可能三角」：

真实性、规模化、低成本，三者目前无法兼得。

光轮创始人谢晨对真机派的回应相当直接，他的观点是「屁股决定脑袋」：

本体公司的商业模式是卖机器人硬件，推崇仿真就很难说服客户花钱采购更多真机来采集数据。

这个观察有道理，但反过来说也成立。每一方的技术判断都或多或少受自身商业位置的影响，把对手的立场全部归结为商业动机，本身也是一种利益相关的修辞。

2026 年 2 月，NVIDIA 发表的 EgoScale 研究给出了一个关键数据点：用两万多小时的第一人称视角人类操作视频做预训练，配合 54 小时的人机对齐数据做中间训练，就让一个 22 自由度灵巧手的任务成功率比基线提高了 54%。

更重要的是，EgoScale 论文发现了一个对数线性的缩放定律——人类视频数据量和模型验证损失之间存在可预测的关系。这意味着只要持续增加人类视频数据，机器人性能就能稳定提升。

这个发现同时动摇了真机派和仿真派的极端立场。它证明了海量真机遥操作数据未必是必需品，人类日常操作视频加上少量对齐数据就够用；但它也暗示，仿真合成数据在这条路线下可能并不处于训练管线的核心位置。

第一视角视频数据正在成为 2026 年机器人训练的热门路径。NVIDIA 自己的 GR00T N1.7 模型已经把 EgoScale 的两万小时人类视频数据纳入了预训练；Google DeepMind 的 Genie 3 世界模型也在探索用生成式方法大规模合成第一人称交互数据。

谢晨对此有自己的叙事框架。他把数据分成金字塔结构：

底层是互联网和第一视角数据，中层是仿真合成数据，顶层是真机数据。在这个框架里，仿真处在「中腰」位置，量比真机大，质比视频高。

这个定位对光轮最有利，但也最需要证明。如果第一视角视频数据加少量对齐数据被证明就够用了，那金字塔的中层就有可能被压扁。仿真的角色不会消失，但会从训练的主路径收缩为辅助工具和评测平台。

终局在谁手里

光轮目前的商业进展是实打实的。光轮 2025 年全年营收实现 10 倍增长，2026 年 Q1 单季预计收入超过去年全年。客户覆盖 NVIDIA、Google DeepMind、Figure AI、1X Technologies、字节、阿里、智元、银河通用、丰田、博世、比亚迪。国际主要具身智能团队中超过 80% 的仿真资产与仿真合成数据来自光轮。

在数据荒最严重的窗口期，这是一个非常强的卡位。

但卡位不等于终局。

第一重风险来自大客户自建。NVIDIA 自己有 Isaac Sim 仿真平台，目前和光轮是合作关系，他们联合开源了 Isaac Lab-Arena 基准框架。但 NVIDIA 过去在 GPU 生态里反复做过同样的事：先和第三方合作培育生态，等到关键能力被验证，再逐步收归自有或扶持多家供应商分散依赖。Isaac Sim 本身就在持续迭代，光轮提供的资产和数据能力，NVIDIA 未必不会在未来的平台版本里自己覆盖。

阿里、字节这类有算力也有场景的公司正在大幅加码具身智能，一旦它们的机器人部署量上来，自建数据能力的动力会比从外部采购更强。

第二重风险来自技术路线的收敛方向。如果 EgoScale 代表的「人类视频预训练 + 少量对齐数据」路线被证明是主路径，仿真合成数据在训练管线中的权重就会下降。虽然光轮在评测环节的价值几乎不受影响，但评测市场的天花板和数据供应市场不在一个量级。

谢晨对此有过一个说法：

终局状态下客户可能不再需要光轮的数据，但一定需要仿真环境来自我修炼。光轮做的不是数据工厂，而是数据引擎。

换句话说，光轮假定仿真环境本身会成为机器人智能的永久基础设施。

这个赌注是否成立，无法确定。它取决于一个光轮自己无法决定的变量：具身智能的技术路线最终收敛到哪里。

宙世代

一起剪

相关标签