灵巧手的第一份高难度考卷，中科院自动化所发布DexJoCo_科技头条_资讯

灵巧手的第一份高难度考卷，中科院自动化所发布DexJoCo

资讯 » 科技头条 2026-06-08

近年来，随着机器人基础模型和灵巧手硬件的快速发展，机器人操作能力正在从简单抓取走向更复杂的功能性交互。但一个关键问题随之出现：我们该如何系统衡量灵巧手是否真的具备复杂操作能力？现有操作基准大多仍围绕机械臂夹爪以及抓取与放置等基础任务展开，难以系统评估灵巧手在工具使用、双手协作、长程执行和精细交互中的真实能力。

针对这一问题，中科院自动化所等机构提出了 DexJoCo，一个面向任务导向灵巧操作的基准与工具链。

论文标题：DexJoCo: A Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo论文地址：https://arxiv.org/abs/2605.16257项目地址：https://dexjoco.github.io/

DexJoCo 基于 MuJoCo 构建，旨在推动机器人从 “会抓取” 走向 “会真正操作”。该基准包含 11 个功能性灵巧操作任务、1.1K 条人类遥操作示范轨迹，覆盖工具使用、双手协作、长程执行和推理等能力维度，并支持现代机器人学习模型的训练与评测。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

图 1 DexJoCo 总览

为什么需要新的灵巧手基准？

过去很多机器人操作基准主要围绕机械臂和夹爪展开，任务通常是把物体从一个位置移动到另一个位置。这类任务对机器人学习非常重要，但很难充分体现灵巧手相较于普通夹爪的核心优势。

灵巧手的价值不只是 “抓得更像人”，而是能够完成更精细、更接触丰富、更具功能性的操作。例如：

拿起水壶并按压把手完成浇花；双手拿起相机并对准目标拍照；根据指令输入密码解锁平板电脑；双手配合完成插入、装配任务。

这些任务不再只是移动物体，而是要求机器人理解任务目标、操作交互部件，并改变环境状态。换言之，DexJoCo 关注的不是机器人能否 “抓住物体”，而是机器人能否真正 “完成一件事”。

DexJoCo 做了什么？

DexJoCo 设计了 11 个灵巧操作任务，覆盖四类核心能力：

工具使用：如浇花、敲钉子、收纳眼镜、使用鼠标。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

双手协作：如双手装配、双手解锁平板电脑、双手拍照。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

长程执行：如打开微波炉、放入食物、关门并启动。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

推理任务：如根据指令完成汉诺塔后续步骤或根据语言指令输入对应密码。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

与传统 pick-and-place 任务不同，DexJoCo 的任务设计强调功能性交互、手指级精细控制、任务顺序理解和双手协调能力。通过这些任务，研究者可以更系统地评估灵巧手在真实复杂操作场景中的能力边界。

不只是任务集，而是一套完整工具链

DexJoCo 提供了一条灵巧手操作评测的完整流程：

任务构建 → 人类遥操作 → 轨迹采集 → 数据格式转换 → 模型训练 → 策略评测

图 2 DexJoCo 流程图

在数据采集方面，DexJoCo 使用 Rokoko Smartgloves 捕捉手部动作，使用 HTC Vive Tracker 和 Base Station 追踪腕部运动，并通过重定向模块将人类手部动作映射到 Allegro Hand 上。整套硬件系统成本约 2300 美元，旨在降低复杂灵巧操作示范数据的采集门槛。

图 3 DexJoCo 数据采集系统

同时，DexJoCo 支持将数据转换为 LeRobot 和 Diffusion Policy Zarr 等常用格式，方便研究者直接训练和评测 ACT、Diffusion Policy、π0.5、GR00T-N1.5 等模型。

强模型也会在灵巧任务中 “翻车”

研究团队在 DexJoCo 基准上评测了多种现代机器人学习模型，包括 ACT、Diffusion Policy、π0.5 和 GR00T N1.5。实验结果显示，即使是当前较先进的机器人策略模型，在复杂灵巧操作任务中仍然面临显著挑战。

图 4 dexjoco 基准上现代机器人策略模型性能

图 5 π_0.5 模型操作失败情况汇总

具体来看，在相机视角、光照条件、桌面纹理等视觉因素发生变化后，模型成功率普遍下降；在双手协作、插入装配、按钮点击等任务中，模型也经常失败。许多模型能够找到目标物体并完成初步抓取，但在最关键的精细交互环节仍然不稳定，例如按不准按钮、插不准孔位、无法正确捏合工具，或在长程任务中丢失后续步骤。

视频链接：https://mp.weixin.qq.com/s/u1c3gFhFyhGeQO6zWq-7wA

这表明，当前机器人模型距离稳定、可靠的人类级灵巧操作仍有明显差距。视觉、语言、触觉和高维手部动作之间，仍然缺少更有效的统一建模方式。

走向人类级灵巧操作，DexJoCo 提供了一套基础设施

DexJoCo 的目标不是简单提供一个排行榜，而是希望构建一个标准化、可复现、可扩展的平台，让研究者能够系统回答几个关键问题：

灵巧手相比夹爪到底强在哪里？当前 VLA 模型能否适应高维灵巧手动作空间？什么样的数据采集方式更适合灵巧操作？怎样的任务设计才能真正推动人类级机器人操作？

当机器人不再只是把物体拿起来，而是能够使用工具、双手协作、理解任务并改变环境状态时，我们才真正接近人类级灵巧操作。

DexJoCo 希望为这条道路提供一套标准化基础设施。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

CVPR 2026 | 支撑春晚合肥 7 分钟的4K画面奇观 PS-SR让视频超分不用在速度与质量间为难

2026-06-080阅读
本月发布！女神朱珠率先晒vivo新机X Fold 6引围观网友感慨人美、手机更美

2026-06-080阅读
第三方杀毒又行了：微软悄悄撤回Defender够用声明

2026-06-080阅读
OWC Stack AI揭开神秘面纱，实为外置式群联aiDAPTIV方案

2026-06-080阅读
新能源车“变胖”让老司机都犯愁，大型SUV车宽普遍接近甚至超2米

2026-06-080阅读
灵巧手的第一份高难度考卷，中科院自动化所发布DexJoCo

2026-06-080阅读
国产SSD逆袭！致态睽违4年重返韩国：杀进三星、SK海力士老家

2026-06-080阅读
内测AI支付，微信要打通Agent关键一环

2026-06-080阅读
新飞机短缺，多国航空公司面临成本危机

2026-06-080阅读
中国人形机器人从奢侈品走向白菜价

2026-06-080阅读