灵巧手能帮女友拧瓶盖了,同济清华上海交大等新成果
灵巧手技能+1,能帮女友拧瓶盖了!
不仅如此,还能帮忙挤牙膏、插充电器。
来自同济大学、清华、上海交大、香港大学等研究团队提出面向灵巧操作任务的示教与策略学习新方法KineDex框架——
真·手把手指导的方式,让人类动作直接传递到灵巧手,并同步采集高保真触觉信息。
结果让星动纪元灵巧手星动XHAND 1成功解锁了各种复杂精细操作。
在瓶盖旋紧、牙膏挤压、注射器按压等九项复杂任务中,KineDex平均成功率达74.4%,且数据采集效率相较于遥操提升两倍以上。
该论文已被CoRL 2025接收。
真·手把手引导灵巧操作学习
当前,机器人学习精细操作(尤其那种需要精确力度控制的任务)的难点在于缺乏高质量的“示范数据”。
以往的主流方式有两种,一种是遥操,一种是视频学习。前者的操作者缺乏真实“手感”,效率低容易失败;后者通过看人类视频模仿学习,但人与灵巧手之间存在差异,动作不匹配,且同样没有触觉信息。
总的来说,这两种方法都难以收集到包含高保真触觉和力度信息的数据来训练机器人。
在此背景下,团队提出了KineDex解决方案,其核心思想非常直观:手把手教学。
硬件配置上,包含配备灵巧手的机械臂。团队采用两台RGB相机采集视觉观测数据:一台固定于工作台前方提供场景全局视图,另一台安装于末端执行器腕部以实现对操作区域的近距离感知。
首先,采集数据。KineDex数据采集系统的核心设计理念是让操作者能够”穿戴”灵巧手自由移动,实时执行需要精细接触的操作任务。为实现这种手把手控制,团队在灵巧手四根手指(非拇指)的背侧安装了个环形绑带。
这样一来,可以确保运动过程中产生的接触力可实时传递至操作者手部,在整个示教过程中提供自然的触觉反馈。
每次演示,都会记录包括视觉观测、本体感知(机械臂末端执行器位姿及灵巧手的关节位置)、触觉传感、指尖力等数据信息。
接下来,处理数据。系统采集到的数据没有办法直接用于视觉运动策略学习,因为摄像头肯定会拍到操作者的手,这会干扰机器人的学习,而之后它自己操作时是没有人手的,因此要是直接使用此类数据训练,将会导致显著的分布外偏移。
因此,团队采用图像修复技术从视觉观测中移除操作者的身体部位。
针对原始动觉示教数据,首先应用Grounded-SAM从视频帧中提取操作者身体部位的掩码,随后将帧序列及其对应掩码输入ProPainter模型修复被人体遮挡的区域。
最后,学习得到的策略接收视觉与触觉信息输入,预测关节位置与接触力,并通过力控执行以实现鲁棒操作。
挤牙膏放鸡蛋拧瓶盖都不在话下
团队设计了九项任务,重点关注精细力控、多指协调及日常物体交互能力,来验证这一策略的有效性。
这些任务覆盖多种灵巧操作技能,包括具有挑战性的场景:如将牙膏挤到牙刷上(需持续微调压力)、按压注射器(要求单手稳定施力并协调抓握以防滑移或错位)。
该实验采用Franka Emika Panda机械臂搭载星动纪元灵巧手星动XHAND 1。XHAND 1每根手指具有两个关节,拇指与食指额外包含旋转关节,共形成12个自由度。每根手指配备120个触觉传感点。
团队将KineDex与三种消融变体进行对比:
(1)无力控版本:推理阶段禁用力控模块,保持训练设置不变;
(2)无触觉输入版本:训练时从策略输入中移除触觉传感数据,但策略仍预测目标指尖力并采用相同力控策略执行;
(3)无修复版本:省略图像修复预处理步骤。
针对每项任务,团队进行了20次试验来评估性能。
KineDex在多数任务中成功率超过70%,在瓶体抓取、杯子抓取等常见拾放场景中达到近100%的成功率。
尽管在最后三项更具挑战性的任务中性能略有下降,其平均成功率仍超过50%。这种下降可能源于任务对精细化定位与接触推理的要求更高,超出了当前策略输入的表示能力。
尽管如此,实验结果也证明了KinDex在日常灵巧操作策略学习的有效性,这得益于其与人类行为的自然契合度以及精确触觉/力反馈的可用性。
消融实验结果表明,力控模块的缺失会显著影响系统性能。当禁用该模块时,所有任务的平均成功率骤降至16.7%,即使如瓶体抓取等简单任务也难以完成。缺乏力控的灵巧手往往仅接触物体表面而未施加足够压力,导致接触密集型任务频繁失败。
而在特别依赖接触的任务(如拧瓶盖、挤牙膏、注射器按压)上,触觉输入的缺失导致性能显著恶化,平均成功率降低26.7%。
如果不把人的手从画面中P掉,没有进行图像修复,将会导致所有任务成功率为0,且执行过程中出现异常行为。
随后,团队通过对比实验进一步验证KineDex相比于遥操在数据收集方面的优势。
结果显示,用KineDex收集数据时成功率接近100%,而遥操成功率仅为39%。这说明遥操需要更高操作技巧与反复试错才能生成高质量示教,导致数据收集效率显著低于KineDex。
在效率方面,KineDex收集数据的速度要快一倍以上。在复杂的注射器按压任务中,KineDex单次示教耗时仅为遥操的50%;而在简单的瓶体抓取任务中,耗时不到遥操的三分之一。
用户研究也表明,人们觉得KineDex这种手把手教学的方式更直观、更高效,更容易收集复杂任务的数据。
项目链接:
https://dinomini00.github.io/KineDex/
论文链接:
https://arxiv.org/abs/2505.01974
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。