智元发布新一代具身基座大模型GO-2，让机器人“知行合一”

IT 之家 4 月 9 日消息，智元机器人今日发布了新一代具身基座大模型 Genie Operator-2（简称 GO-2）。该模型旨在解决机器人从 " 理解意图 " 到 " 稳定执行 " 之间的断层，在统一架构中打通逻辑推理与精准动作执行的链路。

据介绍，GO-2 引入 " 动作思维链 " 机制，模型不会直接输出控制信号，而是先生成一段高层动作序列作为任务的整体规划，描述行为的方向、结构与执行路径。复杂任务被拆解为有序的动作步骤，再通过异步双系统稳定执行。这一设计使机器人从 " 边看边做 " 转变为 " 想清楚再做 "，降低执行偏差，提升行为稳定性。相关成果已被 CVPR 2026 接收。GO-2 在多个机器人基准测试中取得 SOTA 成绩。

IT 之家附官方详细介绍如下：

当一个机器人站在你面前，你对它说一句：" 把杯子拿过来。" 它听懂了，也知道杯子是什么、在哪里，甚至已经在 " 脑海里 " 规划出一条看似完美的路径。可真正伸手去执行的那一刻，动作却常常偏离规划，无法稳定完成。

为什么会这样？过去很长一段时间里，机器人系统始终被困在一种深层割裂之中：高层语义与推理足够聪明，底层动态运动能力也已日趋成熟，像平衡、跑跳、空翻这类动作早已实现稳定流畅。但一旦进入真实场景、面向复杂任务、需要精准可靠地与物理世界交互时，从 " 理解意图 " 到 " 稳定完成 " 之间，依然隔着一道看不见的门槛。

机器人可以生成合理规划，却难以在真实扰动中稳定执行；可以 " 想得明白 "，却未必 " 做得可靠 "。这才是具身智能真正走向现实世界、走向实用化最核心的挑战。

今天，智元机器人正式发布新一代具身基座大模型 Genie Operator-2（以下简称 GO-2）。

GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的 " 最后一公里 "，结合数万小时的数据训练，在多个机器人基准测试中刷新行业 SOTA，让机器人从 " 黑盒摸索 " 迈向真正的 " 知行合一 "。

01/ GO 系列的关键进化：从感知理解到动作执行

一年前，智元发布了 Genie Operator-1（简称 GO-1）基座模型，通过创新的 ViLLA 架构，首次实现了视觉 - 语言 - 动作的统一建模。那是一个里程碑式的突破 —— GO-1 获得了当年 IROS 最佳论文提名，被机器人顶级期刊 TRO 接收，荣获世界人工智能大会 SAIL 之星，并且已经内置到智元的一站式具身开发平台 Genie Studio 中，真正赋能给用户部署模型，在真实场景完成了大规模应用验证。

GO-1 让机器人学会了 " 理解 "。它能看懂指令，能识别场景，能规划任务。

然而，当系统进入更加复杂的真实环境后，一个关键问题逐渐显现：机器人虽然能生成合理的规划，但动作并不总能严格按照规划执行。

想象一下，你让机器人帮你整理厨房。它明明知道要先把碗碟从水池取出，再放进洗碗机，最后启动程序。单看规划，一切完美无缺。可真正执行时，它可能因为微小的视觉偏差抓偏碗沿，或是转身时手臂轨迹偏离预设，最终导致碗碟滑落、任务失败。

这不是规划不够聪明，而是从 " 规划 " 到 " 执行 " 之间的断裂。其核心，正是机器人系统中长期存在的语义‑运动鸿沟（Semantic ‑ Actuation Gap）。

在传统具身模型中，链路往往是割裂的：高层语义推理 → 抽象指令 → 控制系统 → 机器人动作。高层模型输出的抽象信号，与真实世界所需的精细动作之间，仍隔着巨大落差。到了执行环节，控制模块常常绕过规划、直接依赖瞬时视觉生成动作，最终导致：长程任务误差不断累积、动作持续偏离规划、系统整体稳定性大幅下降。

而新一代基座模型 GO ‑ 2 要做的，正是弥合这道鸿沟。GO ‑ 2 的目标清晰而坚定：让机器人不只理解世界，更能稳定、可靠地作用于世界。

02/ GO-2 的核心理念：让机器人真正 " 知行合一 "

进一步把问题拆解来看，要让机器人真正做到知行合一，系统需要同时解决两个关键问题：

如何生成 " 可执行 " 的动作规划；

如何在真实环境中 " 稳定执行 " 该规划。

GO-2 围绕这一问题构建了一套完整架构：先通过动作思维链完成高层动作推理，再通过异步双系统稳定执行。

03 / 首创动作思维链：在动作空间推理规划

在传统方法中，模型通常直接从感知输入生成控制信号。这意味着 " 思考 " 和 " 执行 " 被压缩在同一个瞬间完成，缺乏明确的中间结构。模型既要理解任务，又要完成精细控制，往往难以兼顾。但人类的行为并不是这样发生的。投篮之前，我们会在脑海中预演出手的轨迹；倒水之前，会先想象水流的路径。动作并不是凭空产生，而是在内部形成一个清晰的过程之后自然展开。

GO-2 将这一过程显式化，引入了动作思维链 ( Action Chain-of-Thought ) 。与其在语言或视觉空间中进行推理，再将结果转换为动作，GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号，而是先生成一段高层动作序列，作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径，是一种可以直接被执行系统理解的中间表示。

通过这种方式，复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应，而是建立在已经形成的结构化路径之上。机器人从 " 边看边做 " 转变为 " 想清楚再做 "，执行偏差随之显著降低，整体行为也更加稳定。这一能力的提出，使得 " 推理 " 和 " 执行 " 之间不再存在明显断层，规划本身就已经具备了可执行性。这一成果也已被 AI 顶级会议 CVPR 2026 接收，成为具身智能领域的重要进展。

（论文地址：https://arxiv.org/abs/2601.11404）

04 / 异步双系统：让规划被稳定地执行

为了解决执行稳定性问题，GO-2 引入了一种异步双系统架构，将 " 规划 " 和 " 执行 " 拆分为两个不同节奏的模块，同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度，而是确保高层规划在真实环境中能够被持续、稳定地跟随。

在这一架构中，动作思维链自然成为慢系统的一部分。慢系统以较低频率运行，负责生成结构化的高层动作序列。这些动作并不会直接展开为控制信号，而是以逐步细化的方式持续提供指导，从宏观动作到子动作，再到更细粒度的行为片段，形成一个具有层次结构的动作表示。通过这种方式，高层规划不再是一次性的结果，而是一个持续约束执行方向的 " 意图流 "。

与之对应，快系统以更高频率运行。它持续接收来自慢系统的动作规划，并结合当前的视觉观测生成具体控制信号。在这一过程中，执行并不是对规划的简单复现，而是围绕规划进行实时对齐。系统需要不断应对环境变化，因此在跟随的同时持续进行局部修正与动态调整。例如，当桌面高度与预期不一致时，系统会自动调整手臂的下探幅度；当物体摩擦特性发生变化时，会实时调整抓取力度。这种连续修正，使执行始终贴合规划，而不是逐步偏离。

这种稳定跟随能力的关键，在于规划与执行之间的紧密对齐。在训练阶段，GO-2 引入了带噪声的强制教学 ( teacher forcing ) 机制，在训练执行模块时使用真实的高层动作序列作为条件，同时加入一定扰动，以模拟规划误差。这使得模型能够在 " 接近正确但不完美 " 的规划条件下依然保持稳定执行，从而在实际部署中具备更强的鲁棒性。

最终，这种低频规划与高频执行的组合，使机器人既能保持整体行为的一致性，又能够灵活应对局部变化。规划不再停留在 " 想法 "，而是能够在动态环境中被持续兑现，从而真正实现按规划行事的能力。这一成果，也已被 AI 顶级会议 ACL 2026 接收。

（论文地址：https://libra-vla.github.io/）

05 / 性能表现：刷新行业 SOTA

当 " 思考 " 与 " 执行 " 真正被打通，带来的改变，并不仅仅是指标上的提升，而是系统行为方式的跃迁。在新的架构设计下，GO-2 在多个主流具身智能基准测试（benchmark）中取得了 全面 SOTA（现有最佳技术），在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型 ( 如：π 0.5、NVIDIA GR00T ) 。

LIBERO Benchmark：GO-2 模型在 Spatial、Object、Goal 与 Long 四类任务上均排名第一，平均成功率达到 98.5%

LIBERO-Plus Benchmark：在包含相机、光照、背景和噪声等多种环境扰动的设置下，GO-2 零样本测试取得 86.6% 平均成功率，显著超过现有方法，表现出了超强的泛化能力。

VLABench Benchmark：在跨类别与纹理泛化测试中，GO-2 平均达到 47.4，特别是纹理泛化任务上显著优于其他方法。

Genie Sim 3.0 Benchmark ( Sim-to-Real ) ：在面向真实世界迁移的 Genie Sim 3.0 评测中，GO-2 展示了良好的零样本跨域迁移能力，在仅使用仿真数据训练的前提下，在真实环境测试中取得了 82.9% 的平均成功率，显著优于 π 0.5 （77.5%）。

06 / 规模化落地：从模型能力到真实世界部署

GO-2 的价值，并不止于模型本身。

在 GO-2 的基础上，智元进一步打通模型能力与真实场景部署之间的闭环。通过 " 基座模型 + 分布式强化学习 " 的协同范式，让机器人在真实环境中持续学习、持续进化。

依托 Genie Studio 开发平台，系统构建了面向真实世界的闭环学习能力：通过云端与多机器人协同，不断采集交互数据并进行在线后训练，使模型在真实环境中持续优化，而非依赖离线数据或仿真。每一次执行，都是一次数据积累；每一次反馈，都是一次能力提升。

通过这一 " 预训练 + 后训练 + 数据闭环 " 的体系，GO-2 不再是静态模型，而是能够在真实世界中持续学习、不断进化的生产力系统。

结语

具身智能的终极追求，是知行合一。

从 GO ‑ 1 到 GO ‑ 2，智元完成了一次从能力到价值的关键跃迁：从 " 理解世界 "，走向真正作用于世界；从 " 偶尔成功 "，走向持续稳定完成；从 " 单纯完成动作 "，走向在物理世界中精准交互、稳定落地。

GO ‑ 2 基座模型所做的，正是为具身智能打造真正会思考、可信赖、能落地的通用大脑，打破语义与动作的割裂，让规划与执行真正合一，让机器人的每一个动作，都能适配物理世界的复杂变量、稳定作用于真实场景。

它体现在精准的推理与规划中，体现在稳定可靠的执行里，更体现在从虚拟仿真到真实世界、从实验室验证研发态到产业落地部署态的实践中 —— 这份实践，从来不是单纯的动作运动，而是机器人与物理世界精准、可靠、可复用的交互。

我们希望，它不仅是一个模型，更是一个让机器人从 " 理解世界 "，走向 " 真正作用于世界 "的里程碑。

宙世代

一起剪

相关标签