![]()
近年来,随着机器人基础模型和灵巧手硬件的快速发展,机器人操作能力正在从简单抓取走向更复杂的功能性交互。但一个关键问题随之出现:我们该如何系统衡量灵巧手是否真的具备复杂操作能力?现有操作基准大多仍围绕机械臂夹爪以及抓取与放置等基础任务展开,难以系统评估灵巧手在工具使用、双手协作、长程执行和精细交互中的真实能力。
针对这一问题,中科院自动化所等机构提出了 DexJoCo,一个面向任务导向灵巧操作的基准与工具链。
![]()
论文标题:DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo论文地址:https://arxiv.org/abs/2605.16257项目地址:https://dexjoco.github.io/
DexJoCo 基于 MuJoCo 构建,旨在推动机器人从 “会抓取” 走向 “会真正操作”。该基准包含 11 个功能性灵巧操作任务、1.1K 条人类遥操作示范轨迹,覆盖工具使用、双手协作、长程执行和推理等能力维度,并支持现代机器人学习模型的训练与评测。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
图 1 DexJoCo 总览
为什么需要新的灵巧手基准?
过去很多机器人操作基准主要围绕机械臂和夹爪展开,任务通常是把物体从一个位置移动到另一个位置。这类任务对机器人学习非常重要,但很难充分体现灵巧手相较于普通夹爪的核心优势。
灵巧手的价值不只是 “抓得更像人”,而是能够完成更精细、更接触丰富、更具功能性的操作。例如:
拿起水壶并按压把手完成浇花;双手拿起相机并对准目标拍照;根据指令输入密码解锁平板电脑;双手配合完成插入、装配任务。
这些任务不再只是移动物体,而是要求机器人理解任务目标、操作交互部件,并改变环境状态。换言之,DexJoCo 关注的不是机器人能否 “抓住物体”,而是机器人能否真正 “完成一件事”。
DexJoCo 做了什么?
DexJoCo 设计了 11 个灵巧操作任务,覆盖四类核心能力:
工具使用:如浇花、敲钉子、收纳眼镜、使用鼠标。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
双手协作:如双手装配、双手解锁平板电脑、双手拍照。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
长程执行:如打开微波炉、放入食物、关门并启动。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
推理任务:如根据指令完成汉诺塔后续步骤或根据语言指令输入对应密码。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
与传统 pick-and-place 任务不同,DexJoCo 的任务设计强调功能性交互、手指级精细控制、任务顺序理解和双手协调能力。通过这些任务,研究者可以更系统地评估灵巧手在真实复杂操作场景中的能力边界。
不只是任务集,而是一套完整工具链
DexJoCo 提供了一条灵巧手操作评测的完整流程:
任务构建 → 人类遥操作 → 轨迹采集 → 数据格式转换 → 模型训练 → 策略评测
![]()
图 2 DexJoCo 流程图
在数据采集方面,DexJoCo 使用 Rokoko Smartgloves 捕捉手部动作,使用 HTC Vive Tracker 和 Base Station 追踪腕部运动,并通过重定向模块将人类手部动作映射到 Allegro Hand 上。整套硬件系统成本约 2300 美元,旨在降低复杂灵巧操作示范数据的采集门槛。
![]()
图 3 DexJoCo 数据采集系统
同时,DexJoCo 支持将数据转换为 LeRobot 和 Diffusion Policy Zarr 等常用格式,方便研究者直接训练和评测 ACT、Diffusion Policy、π0.5、GR00T-N1.5 等模型。
强模型也会在灵巧任务中 “翻车”
研究团队在 DexJoCo 基准上评测了多种现代机器人学习模型,包括 ACT、Diffusion Policy、π0.5 和 GR00T N1.5。实验结果显示,即使是当前较先进的机器人策略模型,在复杂灵巧操作任务中仍然面临显著挑战。
![]()
图 4 dexjoco 基准上现代机器人策略模型性能
![]()
图 5 π_0.5 模型操作失败情况汇总
具体来看,在相机视角、光照条件、桌面纹理等视觉因素发生变化后,模型成功率普遍下降;在双手协作、插入装配、按钮点击等任务中,模型也经常失败。许多模型能够找到目标物体并完成初步抓取,但在最关键的精细交互环节仍然不稳定,例如按不准按钮、插不准孔位、无法正确捏合工具,或在长程任务中丢失后续步骤。
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
![]()
视频链接:https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA
这表明,当前机器人模型距离稳定、可靠的人类级灵巧操作仍有明显差距。视觉、语言、触觉和高维手部动作之间,仍然缺少更有效的统一建模方式。
走向人类级灵巧操作,DexJoCo 提供了一套基础设施
DexJoCo 的目标不是简单提供一个排行榜,而是希望构建一个标准化、可复现、可扩展的平台,让研究者能够系统回答几个关键问题:
灵巧手相比夹爪到底强在哪里?当前 VLA 模型能否适应高维灵巧手动作空间?什么样的数据采集方式更适合灵巧操作?怎样的任务设计才能真正推动人类级机器人操作?
当机器人不再只是把物体拿起来,而是能够使用工具、双手协作、理解任务并改变环境状态时,我们才真正接近人类级灵巧操作。
DexJoCo 希望为这条道路提供一套标准化基础设施。
相关文章
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读
2026-06-080阅读