现在机器人学会 " 看 " 和 " 听 ",下一步是让它拥有 " 触觉 "。
但是触觉数据的获取并不容易…
随着 Ego4D 等大规模第一人称数据集的提出,基于第一人称(ego-centric)视频数据的具身学习受到了广泛关注。相比传统的真机遥操作数据集,ego-centric 数据在采集成本、视角覆盖以及交互自然性等方面具有显著优势,能够更加真实地反映人类与环境的交互过程,因而逐渐成为该领域的重要发展方向。
然而,现有的 ego-centric 数据集普遍缺乏人类与环境交互中至关重要的一种模态信息——触觉模态。这一关键模态的缺失,使得现有模型难以建模机器人与物理世界之间的接触与力学交互。即便是在抓取、搬运等基础操作任务中,缺乏触觉信息也会导致系统难以判断接触是否稳定或操作是否成功,从而限制了模型在真实场景中的应用能力。
为了解决上述问题,哈尔滨工业大学(深圳)杨朔教授团队提出了业内首个基于第一人称视角的多模态触觉数据集EgoTouch。该数据集同步采集了第一人称视觉信息、双手腕视角视频、双手全掌高分辨率触觉信号以及双手多关节三维位姿数据,实现了视觉与触觉的紧密对齐。在此基础上,团队进一步研发了首个基于第一人称视频的双手触觉估计模型TouchAnything,为从视觉推理触觉信息提供了新的技术路径。
EgoTouch 数据集概览

EgoTouch 数据集具有以下关键特性:
多视角结合双手全掌触觉:EgoTouch 是首个将第一人称视角与双手腕部视角的多视角视频,与双手全掌真实触觉压力数据进行同步采集的数据集。第一人称相机提供全局操作语境,而腕部相机补充了常被遮挡的手物接触细节。
密集且连续的全掌压力:EgoTouch 提供了由可穿戴触觉采集手套提供的精确压力分布数据。
极丰富场景的双手操作:EgoTouch 数据集提供了超过 300 项手部精细操作任务,涵盖抓取,按压,工具使用,双手协调等;同时包括室内,室外,商业等丰富的环境场景。
全模态数据且时间同步:所有模态均进行了逐帧时间对齐,包括:三视角视频,双掌压力图,双手手部精确位姿(42 个关节)。
1. 与现有数据集相比,EgoTouch 提供了最全面的模态信息
EgoTouch 数据集包含室内室外等丰富环境信息,包含双掌的全掌精确压力触觉信息,操作物品类型超 1000 种,总数据超过两百万帧。

2. EgoTouch 有着极其丰富的任务和场景分布
总体任务被分为:居家,工坊,办公,零售,户外等五个场景类别,每个类别都包含丰富的任务类型。

3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程
下图展示了杨朔团队设计的标准数采方案,包括三个可穿戴式摄像头,一双 Rokoko 手部关节动捕手套,三个 HTC_Vive 定位追踪器和一双压力触觉手套。

模型架构
在 EgoTouch 数据集的基础上,哈工深杨朔团队实现了一种多视角触觉预测模型 TouchAnything,建立了该任务的基准方法。该模型使用 DINOv2 作为视觉骨干,设计了可学习的视角嵌入和跨视角的交叉注意力机制。即使在缺失视角,如只有 ego 视角时,也可以提供相对准确的触觉预测。

实验结果展示
下列视频与图片展示了 TouchAnything 模型的具体推理结果,可以看到,模型能够准确预测出触觉信息在手掌中的分布情况:
多视角拔插充电器:
双手抛接网球:
单手鼠标操作:
便利店饮料抓握:
超市货品购买:
单手颠乒乓球:

多视角输入可以提升触觉预测准确性

实验结果表明,多视角输入能够提升触觉预测性能。相比仅使用第一人称视角(ego-centric),融合左右手腕视角的多视角输入在已见与未见物体设置下均取得一致的性能提升,其中三视角联合输入(Ego+wL+wR)在 Temporal_Accuracy、Contact_IoU、Volumetric_IoU 和 MAE 等指标上表现最佳。
这一提升主要源于不同视角的互补性:第一人称视角提供整体交互语境,而手腕视角能够补充被自遮挡的接触细节,尤其在抓取和施力阶段有助于更准确地恢复触觉分布。
数据规模提升显著增强触觉预测性能

实验结果表明,模型性能随训练数据规模呈现出稳定的扩展趋势(scaling_behavior)。随着数据比例从 25% 提升至 100%,Contact_IoU 与 Volumetric_IoU 持续提升,而 MAE 逐步降低,且在未见物体上的提升同样显著。这说明所提出方法能够有效从大规模数据中学习鲁棒的视觉 - 触觉映射关系,并具备较强的跨对象泛化能力。
展望
触觉模态可能是具身智能领域当前最需要的一块拼图。在多模态大模型飞速发展的当下,具身机器人缺乏的是和物理世界精细交互的触觉信息信息。
EgoTouch 数据集为当前具身灵巧操作领域提供了稀缺的触觉信息。同时 TouchAnything 又为现有第一人称视角数据集提供了全新的触觉预测方法,进一步提升了对于第一人称视角信息的利用效率。
研究团队认为,灵巧操作或许是具身智能急需攻克的下一个技术难关,而触觉模态将会发挥主导作用,为高难度的精细操作提供最直接的反馈。另一方面,在 World_Action_Model 越发引人关注的当下,触觉模态也可以为世界模型提供关键的力学信息,共同构建高置信的状态预测和可靠的动作生成。
论文标题:
TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video
作者介绍:
Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Shuo Yang(通讯作者,shuoyang@hit.edu.cn)
实验室名:
M-PAI Lab, HITSZ
项目地址:
https://jianyi2004.github.io/TouchAnything-Website/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦