← 返回全部数据集

ARNOLD

开源

UCLA / 北京大学 / 清华大学 / BIGAI

ARNOLD(A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes)是 ICCV 2023 发布、CVPR 2024 Embodied AI Workshop 举办挑战赛的语言条件操作基准。

核心特色:不同于传统离散目标(开/关),ARNOLD 聚焦连续目标状态(如打开抽屉 50%、将瓶子举到特定高度、旋转到指定角度),更贴近真实操作需求。

基准规模:在 NVIDIA Isaac Sim 中构建了 20 个逼真 3D 室内场景、40 种物体、8 个语言条件任务(拾放、旋转、开关抽屉/柜门、倒水/移水),含 ~10K 专家演示及模板生成的语言指令。

基准评估显示当前最先进的语言条件策略模型在未见场景、物体和目标状态的泛化上仍面临巨大挑战。

机构
UCLA / 北京大学 / 清华大学 / BIGAI
规模
8 语言条件任务,40 物体,20 场景,~10K 专家演示
许可证
MIT
机器人类型
机械臂
任务类型
操作
发布年份
2023
数据模态
视觉、语言、动作
🤖 仿真生成✅ 模板自动生成(语言指令)💻 仿真📊 有数据划分

数据格式

存储格式HDF5 / JSON(Isaac Sim 格式)
数据规模未知
压缩方式
文件布局HDF5 格式;按 episode 分文件
索引方式HDF5 内部 attribute;language_goal 为索引键
格式版本HDF5 v2.0
episode
step
observation (RGB + depth + proprioception)
action
language_goal (continuous)

快速上手

加载数据

import h5py
with h5py.File('arnold_demo.hdf5', 'r') as f:
    actions = f['actions'][:]
    imgs = f['obs/agentview_image'][:]
    lang = f['obs/language_goal'][:]

依赖库

h5pynumpy

预处理说明

HDF5 格式;连续语言目标

数据内容

传感器规格

仿真 RGB 相机
深度相机
本体状态

数据统计

场景数20 个 3D 室内场景
物体数40 种
任务数8 语言条件操作任务(连续目标状态)
轨迹/片段数~10,000

标注信息

模板生成语言指令连续目标状态场景/物体标签

相关链接

引用信息

@inproceedings{gong2023arnold,
  title={ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes},
  author={Gong, Ran and Huang, Jiangyong and Zhao, Yizhou and Geng, Haoran and Gao, Xiaofeng and Wu, Qingyang and Ai, Wensi and Zhou, Ziheng and Terzopoulos, Demetri and Zhu, Song-Chun and Jia, Baoxiong and Huang, Siyuan},
  booktitle={ICCV},
  year={2023}
}

更新历史

2023-04
arXiv 预印本发布
2023-10
ICCV 2023 正式发表
2024-06
CVPR 2024 Embodied AI Workshop ARNOLD Challenge

采用的数据标准

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配