IT之家 5小时前
智元发布新一代具身基座大模型GO-2,让机器人“知行合一”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 4 月 9 日消息,智元机器人今日发布了新一代具身基座大模型 Genie Operator-2(简称 GO-2)。该模型旨在解决机器人从 " 理解意图 " 到 " 稳定执行 " 之间的断层,在统一架构中打通逻辑推理与精准动作执行的链路。

据介绍,GO-2 引入 " 动作思维链 " 机制,模型不会直接输出控制信号,而是先生成一段高层动作序列作为任务的整体规划,描述行为的方向、结构与执行路径。复杂任务被拆解为有序的动作步骤,再通过异步双系统稳定执行。这一设计使机器人从 " 边看边做 " 转变为 " 想清楚再做 ",降低执行偏差,提升行为稳定性。相关成果已被 CVPR 2026 接收。GO-2 在多个机器人基准测试中取得 SOTA 成绩。

IT 之家附官方详细介绍如下:

当一个机器人站在你面前,你对它说一句:" 把杯子拿过来。" 它听懂了,也知道杯子是什么、在哪里,甚至已经在 " 脑海里 " 规划出一条看似完美的路径。可真正伸手去执行的那一刻,动作却常常偏离规划,无法稳定完成。

为什么会这样?过去很长一段时间里,机器人系统始终被困在一种深层割裂之中:高层语义与推理足够聪明,底层动态运动能力也已日趋成熟,像平衡、跑跳、空翻这类动作早已实现稳定流畅。但一旦进入真实场景、面向复杂任务、需要精准可靠地与物理世界交互时,从 " 理解意图 " 到 " 稳定完成 " 之间,依然隔着一道看不见的门槛。

机器人可以生成合理规划,却难以在真实扰动中稳定执行;可以 " 想得明白 ",却未必 " 做得可靠 "。这才是具身智能真正走向现实世界、走向实用化最核心的挑战。

今天,智元机器人正式发布新一代具身基座大模型 Genie Operator-2(以下简称 GO-2)。

GO-2 首次在统一架构中打通从逻辑推理到精准动作执行的 " 最后一公里 ",结合数万小时的数据训练,在多个机器人基准测试中刷新行业 SOTA,让机器人从 " 黑盒摸索 " 迈向真正的 " 知行合一 "。

01/ GO 系列的关键进化:从感知理解到动作执行

一年前,智元发布了 Genie Operator-1(简称 GO-1)基座模型,通过创新的 ViLLA 架构,首次实现了视觉 - 语言 - 动作的统一建模。那是一个里程碑式的突破 —— GO-1 获得了当年 IROS 最佳论文提名,被机器人顶级期刊 TRO 接收,荣获世界人工智能大会 SAIL 之星,并且已经内置到智元的一站式具身开发平台 Genie Studio 中,真正赋能给用户部署模型,在真实场景完成了大规模应用验证。

GO-1 让机器人学会了 " 理解 "。它能看懂指令,能识别场景,能规划任务。

然而,当系统进入更加复杂的真实环境后,一个关键问题逐渐显现:机器人虽然能生成合理的规划,但动作并不总能严格按照规划执行。

想象一下,你让机器人帮你整理厨房。它明明知道要先把碗碟从水池取出,再放进洗碗机,最后启动程序。单看规划,一切完美无缺。可真正执行时,它可能因为微小的视觉偏差抓偏碗沿,或是转身时手臂轨迹偏离预设,最终导致碗碟滑落、任务失败。

这不是规划不够聪明,而是从 " 规划 " 到 " 执行 " 之间的断裂其核心,正是机器人系统中长期存在的语义‑运动鸿沟(Semantic ‑ Actuation Gap)。

在传统具身模型中,链路往往是割裂的:高层语义推理 → 抽象指令 → 控制系统 → 机器人动作。高层模型输出的抽象信号,与真实世界所需的精细动作之间,仍隔着巨大落差。到了执行环节,控制模块常常绕过规划、直接依赖瞬时视觉生成动作,最终导致:长程任务误差不断累积、动作持续偏离规划、系统整体稳定性大幅下降。

而新一代基座模型 GO ‑ 2 要做的,正是弥合这道鸿沟。GO ‑ 2 的目标清晰而坚定:让机器人不只理解世界,更能稳定、可靠地作用于世界。

02/ GO-2 的核心理念:让机器人真正 " 知行合一 "

进一步把问题拆解来看,要让机器人真正做到知行合一,系统需要同时解决两个关键问题:

如何生成 " 可执行 " 的动作规划;

如何在真实环境中 " 稳定执行 " 该规划。

GO-2 围绕这一问题构建了一套完整架构:先通过动作思维链完成高层动作推理,再通过异步双系统稳定执行。

03 / 首创动作思维链:在动作空间推理规划

在传统方法中,模型通常直接从感知输入生成控制信号。这意味着 " 思考 " 和 " 执行 " 被压缩在同一个瞬间完成,缺乏明确的中间结构。模型既要理解任务,又要完成精细控制,往往难以兼顾。但人类的行为并不是这样发生的。投篮之前,我们会在脑海中预演出手的轨迹;倒水之前,会先想象水流的路径。动作并不是凭空产生,而是在内部形成一个清晰的过程之后自然展开。

GO-2 将这一过程显式化,引入了动作思维链 ( Action Chain-of-Thought ) 。与其在语言或视觉空间中进行推理,再将结果转换为动作,GO-2 直接在动作空间中完成这一过程。模型不会立即输出控制信号,而是先生成一段高层动作序列,作为任务的整体规划。这一序列描述了行为的方向、结构以及执行路径,是一种可以直接被执行系统理解的中间表示。

通过这种方式,复杂任务被自然拆解为有序的动作步骤。执行过程不再依赖即时反应,而是建立在已经形成的结构化路径之上。机器人从 " 边看边做 " 转变为 " 想清楚再做 ",执行偏差随之显著降低,整体行为也更加稳定。这一能力的提出,使得 " 推理 " 和 " 执行 " 之间不再存在明显断层,规划本身就已经具备了可执行性。这一成果也已被 AI 顶级会议 CVPR 2026 接收,成为具身智能领域的重要进展。

(论文地址:https://arxiv.org/abs/2601.11404)

04 / 异步双系统:让规划被稳定地执行

为了解决执行稳定性问题,GO-2 引入了一种异步双系统架构,将 " 规划 " 和 " 执行 " 拆分为两个不同节奏的模块,同时保持它们之间的紧密协同。其核心目标并不是简单地提高控制精度,而是确保高层规划在真实环境中能够被持续、稳定地跟随。

在这一架构中,动作思维链自然成为慢系统的一部分。慢系统以较低频率运行,负责生成结构化的高层动作序列。这些动作并不会直接展开为控制信号,而是以逐步细化的方式持续提供指导,从宏观动作到子动作,再到更细粒度的行为片段,形成一个具有层次结构的动作表示。通过这种方式,高层规划不再是一次性的结果,而是一个持续约束执行方向的 " 意图流 "。

与之对应,快系统以更高频率运行。它持续接收来自慢系统的动作规划,并结合当前的视觉观测生成具体控制信号。在这一过程中,执行并不是对规划的简单复现,而是围绕规划进行实时对齐。系统需要不断应对环境变化,因此在跟随的同时持续进行局部修正与动态调整。例如,当桌面高度与预期不一致时,系统会自动调整手臂的下探幅度;当物体摩擦特性发生变化时,会实时调整抓取力度。这种连续修正,使执行始终贴合规划,而不是逐步偏离。

这种稳定跟随能力的关键,在于规划与执行之间的紧密对齐。在训练阶段,GO-2 引入了带噪声的强制教学 ( teacher forcing ) 机制,在训练执行模块时使用真实的高层动作序列作为条件,同时加入一定扰动,以模拟规划误差。这使得模型能够在 " 接近正确但不完美 " 的规划条件下依然保持稳定执行,从而在实际部署中具备更强的鲁棒性。

最终,这种低频规划与高频执行的组合,使机器人既能保持整体行为的一致性,又能够灵活应对局部变化。规划不再停留在 " 想法 ",而是能够在动态环境中被持续兑现,从而真正实现按规划行事的能力。这一成果,也已被 AI 顶级会议 ACL 2026 接收。

(论文地址:https://libra-vla.github.io/)

05 / 性能表现:刷新行业 SOTA

当 " 思考 " 与 " 执行 " 真正被打通,带来的改变,并不仅仅是指标上的提升,而是系统行为方式的跃迁。在新的架构设计下,GO-2 在多个主流具身智能基准测试(benchmark)中取得了 全面 SOTA(现有最佳技术),在任务成功率、环境鲁棒性以及跨场景泛化能力上均显著领先当前主流模型 ( 如:π 0.5、NVIDIA GR00T ) 。

LIBERO Benchmark:GO-2 模型在 Spatial、Object、Goal 与 Long 四类任务上均排名第一,平均成功率达到 98.5%

LIBERO-Plus Benchmark:在包含相机、光照、背景和噪声等多种环境扰动的设置下,GO-2 零样本测试取得 86.6% 平均成功率,显著超过现有方法,表现出了超强的泛化能力。

VLABench Benchmark:在跨类别与纹理泛化测试中,GO-2 平均达到 47.4,特别是纹理泛化任务上显著优于其他方法。

Genie Sim 3.0 Benchmark ( Sim-to-Real ) :在面向真实世界迁移的   Genie Sim 3.0 评测中,GO-2 展示了良好的零样本跨域迁移能力,在仅使用仿真数据训练的前提下,在真实环境测试中取得了 82.9% 的平均成功率,显著优于 π 0.5 (77.5%)。

06 / 规模化落地:从模型能力到真实世界部署

GO-2 的价值,并不止于模型本身。

在 GO-2 的基础上,智元进一步打通模型能力与真实场景部署之间的闭环。通过 " 基座模型 + 分布式强化学习 " 的协同范式,让机器人在真实环境中持续学习、持续进化。

依托 Genie Studio 开发平台,系统构建了面向真实世界的闭环学习能力:通过云端与多机器人协同,不断采集交互数据并进行在线后训练,使模型在真实环境中持续优化,而非依赖离线数据或仿真。每一次执行,都是一次数据积累;每一次反馈,都是一次能力提升。

通过这一 " 预训练 + 后训练 + 数据闭环 " 的体系,GO-2 不再是静态模型,而是能够在真实世界中持续学习、不断进化的生产力系统。

结语

具身智能的终极追求,是知行合一

从 GO ‑ 1 到 GO ‑ 2,智元完成了一次从能力到价值的关键跃迁:从 " 理解世界 ",走向真正作用于世界;从 " 偶尔成功 ",走向持续稳定完成;从 " 单纯完成动作 ",走向在物理世界中精准交互、稳定落地。

GO ‑ 2 基座模型所做的,正是为具身智能打造真正会思考、可信赖、能落地的通用大脑,打破语义与动作的割裂,让规划与执行真正合一,让机器人的每一个动作,都能适配物理世界的复杂变量、稳定作用于真实场景。

它体现在精准的推理与规划中,体现在稳定可靠的执行里,更体现在从虚拟仿真到真实世界、从实验室验证研发态到产业落地部署态的实践中 —— 这份实践,从来不是单纯的动作运动,而是机器人与物理世界精准、可靠、可复用的交互。

我们希望,它不仅是一个模型,更是一个让机器人从 " 理解世界 ",走向 " 真正作用于世界 "的里程碑。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 it之家 物理 世界人工智能大会 美的
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论