该论文由清华大学与北京银河通用机器人股份有限公司合作完成。论文的共同第一作者为银河通用研究团队成员薛晗、梁斯凯和张智楷,其中薛晗和张智楷为清华大学学生,指导老师为清华大学助理教授弋力。
一、传统避障,困在 " 低效试错 " 里
在堆满杂物的客厅里穿梭——需要弯腰避开低矮的咖啡桌、抬腿跨过地上的书本、侧身挤过沙发与书架间的窄缝,这对人类来说轻而易举。但对机器人而言,却是融合环境感知、动作规划与碰撞规避的复杂挑战。
传统强化学习(RL)仅在碰撞发生时给予惩罚,机器人需要反复试错才能摸索出安全路径,学习效率极低;而且直接处理激光雷达、摄像头的原始高维数据,机器人难以快速识别 " 自身与障碍物的空间关系 ",比如 " 头部是否会撞到吊灯 "" 腿部能否跨过书本 "。现有方法多针对单一类型障碍物(如地面凸起、高空遮挡),无法应对 " 地面有杂物 + 两侧有阻挡 + 头顶有吊灯 " 的全空间约束场景。
清华大学与 Galbot 团队提出的 HumanoidPF(人形势能场) ,为机器人赋予了 " 避障直觉 ":它将机器人与障碍物的空间关系编码为连续的梯度场,像无形的 " 力 " 引导机器人自主选择安全路径,无需复杂计算就能完成弯腰、抬腿、侧身等灵活动作,成功实现复杂室内场景的无碰撞穿梭。
它的核心魅力在于:不再让机器人依赖 " 碰撞后惩罚 " 的低效试错,而是通过前瞻性的环境引导,让避障成为一种 " 本能反应 ",大幅提升了人形机器人在真实家居场景的实用性。

• 论文标题:Collision-Free Humanoid Traversal in Cluttered Indoor Scenes
• 相关论文:https://arxiv.org/abs/2601.16035
• 项目主页:https://axian12138.github.io/CAT/
• GitHub:https://github.com/GalaxyGeneralRobotics/Click-and-Traverse
二、HumanoidPF:给机器人装 " 避障导航仪 "
HumanoidPF 的灵感源自经典的人工势能场(APF),但针对人形机器人的多关节结构进行了重构——它将目标点视为 " 吸引力 ",障碍物视为 " 排斥力 ",形成连续的梯度场,为机器人的每个身体部位提供明确的运动指引。
1. 构建 HumanoidPF:用 " 力场 " 编码空间关系
HumanoidPF 通过吸引力场和排斥力场的叠加,生成全局导航梯度场,核心公式如下:
• 吸引力场(引导向目标):

是机器人身体部位 x 到目标点 g 的最短无碰撞路径(测地线距离),确保引导路径避开障碍物,而非直线穿越。
• 排斥力场(远离障碍物):

是基于障碍物的带符号距离(signed distance field, sdf)——距离障碍物越近,排斥力越强,避免碰撞。
• 最终引导场(合成吸引力与排斥力):

梯度场的方向,就是机器人身体部位的最优运动方向,既远离障碍物,又朝向目标点。

HumanoidPF 示意图:左图为势能场 2D 示意图(红色为障碍物排斥区,蓝色为目标吸引力区);右图为运动方向分布 2D 示意图,颜色越深表示该方向越安全,引导机器人自主选择最优路径。
2. 适配人形机器人:优先级加权,避免身体部位 " 打架 "
人形机器人有头、躯干、四肢等多个部位,直接应用势能场可能出现运动冲突(如左手要向左躲、右手要向右躲)。为此,HumanoidPF 引入优先级加权机制:
• 核心部位优先:骨盆等核心部位权重更高,确保整体运动方向稳定;四肢权重较低,灵活适配核心方向。公式如下:

• 危险部位加权:根据身体部位与障碍物的距离 ( d ( x_k ) ) 和运动速度 ( v_k ) ,动态提升危险部位的权重,公式如下:
距离障碍物越近、运动速度越快,权重越高,优先规避碰撞风险。
最终的引导场为:

确保全身运动协调一致,无冲突。
3. 双管齐下:让避障学习更高效
HumanoidPF 通过 " 感知输入 + 奖励引导 " 双重方式,融入强化学习训练,大幅提升学习效率:
• 作为感知输入:在机器人 13 个关键身体部位(头、胸、骨盆、四肢关节等)查询梯度场向量,形成紧凑的环境感知特征,让机器人直接 " 感知 " 该如何移动身体;
• 作为奖励引导:将梯度场引导的运动方向,建模为冯 · 米塞斯 - 费舍尔(vMF)分布,鼓励机器人动作与引导方向对齐,提供密集、前瞻性的奖励信号,公式如下:

其中
是引导方向,
是方向集中度(核心部位集中度更高),
是机器人实际运动方向。
这种设计让机器人无需等到碰撞发生,就能获得实时反馈,学习效率大幅提升。

整体技术 pipeline:左:HumanoidPF 构建及在学习中的双重作用(感知输入 + 奖励引导);右:混合场景生成与真实部署流程,从仿真训练到 " 点击导航 " 实际应用。
三、拓展训练:混合场景生成,让机器人 " 见多识广 "
要应对真实世界的复杂环境,机器人需要在多样化场景中训练。为此,研究团队提出混合场景生成策略,大幅提升政策的泛化能力:
1. 真实场景裁剪:从 3DFRONT 等真实室内数据集,裁剪 5m × 5m 的场景块,保留家具、家电等真实障碍物布局;
2. 程序化障碍物生成:人工生成 " 地面凸起、两侧阻挡、高空悬挂 " 的全空间约束场景,甚至通过旋转、噪声扰动,模拟不规则障碍物(如散落的书本、倾斜的盒子);
3. 课程学习:从简单场景(单一障碍物)逐步过渡到复杂场景(多障碍物全空间约束),让机器人循序渐进掌握避障技能。
这种训练方式,让机器人见过 " 弯腰躲吊灯 + 抬腿跨杂物 + 侧身挤窄缝 " 的复合场景,在真实环境中遇到类似情况时,能快速做出反应。
避障实测场景:(a)8 种典型测试场景的避障行为;(b)程序化生成的复杂障碍物场景;(c)真实世界 " 弯腰 - 跨障 " 复合任务;(d)动态干扰下的避障表现,机器人能应对物体移动的突发情况。
四、实测:灵活应对 8 类场景
HumanoidPF 在 Unitree G1 人形机器人上完成了全面测试,无论是仿真还是真实场景,都展现出卓越的避障能力:
4. 仿真测试:8 类场景成功率超 90%
在 " 弯腰 - 跨障 "" 侧身 - 弯腰 "" 多障碍物连续避障 " 等 8 类复杂场景中,HumanoidPF 的成功率均超过 90%,远高于 ASTraversal(28.1%-82.1%)和 Humanoid Parkour(33.3%-88.7%)等基线方法。
其中,在最具挑战性的 " 侧身 - 弯腰 - 跨步 " 场景(需要同时规避两侧和上方障碍物),HumanoidPF 的成功率达到 86.6%,远超基线,充分证明其处理全空间约束的能力。

8 类场景避障性能对比:HumanoidPF(最后一行)在所有场景中均实现最高成功率(SR%)和最小距离误差(DE ( m ) ),优势显著。
5. 真实世界:" 点击导航 " 轻松穿梭
研究团队将政策部署为 " 点击导航(Click-and-Traverse)" 系统:用户在地图上点击目标位置,机器人通过激光雷达构建实时环境地图和 HumanoidPF,自主规划路径并穿梭,无需手动操控。
在真实室内测试中,机器人成功完成:
• 弯腰避开低矮茶几(高度 0.4m);
• 抬腿跨过 15cm 高的书本;
• 侧身挤过 0.8m 宽的窄缝;
• 应对 " 弯腰 + 跨障 " 复合任务,全程无碰撞,表现稳定。

6. 泛化与鲁棒性:应对未知场景和动态干扰
• 零 -shot 泛化:在未训练过的艺术家设计场景中,包含真实家具和不规则障碍物,训练后的政策在 " 简单场景 " 成功率 95.2%," 复杂场景 " 成功率 66.7%,远高于仅用真实场景训练的基线;
• 动态干扰:在机器人穿梭过程中移动障碍物,它能实时更新 HumanoidPF,调整运动轨迹,避免碰撞,展现出强鲁棒性。
混合场景生成的泛化性能:加入高难度程序化场景训练后(最后一行),机器人在未知复杂场景的成功率从 1.2% 提升至 66.7%,泛化能力大幅提升。
五、关键优势:为什么 HumanoidPF 如此高效?
1. 前瞻性引导:不再依赖 " 碰撞后惩罚 ",而是通过梯度场提供实时、密集的运动指引,学习效率提升数倍;
2. 低迁移 gap:势能场作为连续的空间表示,能平滑传感器噪声和场景细节差异,从仿真到真实世界的迁移几乎无需额外微调;
3. 通用适配:不依赖特定障碍物类型或场景结构,无论是规则家具还是不规则杂物,都能通过势能场编码空间关系,泛化性极强。

对比其他工作:S={g,l,o} 表示 " 地面 ( ground ) 有杂物 + 两侧 ( lateral ) 有阻挡 + 头顶 ( overhead ) 有吊灯 " 的全空间约束。
总结
HumanoidPF 的核心价值,是为机器人构建了一套 " 机器人 - 障碍物关系 " 的通用语言——它将复杂的空间感知转化为直观的运动指引,让避障从 " 低效试错 " 变为 " 本能反应 "。
随着技术完善,人形机器人或许能像人类一样,在堆满杂物的房间里灵活穿梭,自主完成家务、取物等任务,真正走进日常生活。而 HumanoidPF 的提出,为通用人形机器人的环境适应能力奠定了关键基础。



登录后才可以发布评论哦
打开小程序可以发布评论哦