ARNOLD
UCLA / 北京大学 / 清华大学 / BIGAI
ARNOLD(A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes)是 ICCV 2023 发布、CVPR 2024 Embodied AI Workshop 举办挑战赛的语言条件操作基准。
核心特色:不同于传统离散目标(开/关),ARNOLD 聚焦连续目标状态(如打开抽屉 50%、将瓶子举到特定高度、旋转到指定角度),更贴近真实操作需求。
基准规模:在 NVIDIA Isaac Sim 中构建了 20 个逼真 3D 室内场景、40 种物体、8 个语言条件任务(拾放、旋转、开关抽屉/柜门、倒水/移水),含 ~10K 专家演示及模板生成的语言指令。
基准评估显示当前最先进的语言条件策略模型在未见场景、物体和目标状态的泛化上仍面临巨大挑战。
机构
UCLA / 北京大学 / 清华大学 / BIGAI
规模
8 语言条件任务,40 物体,20 场景,~10K 专家演示
许可证
MIT
机器人类型
机械臂
任务类型
操作
发布年份
2023
数据模态
视觉、语言、动作
🤖 仿真生成✅ 模板自动生成(语言指令)💻 仿真📊 有数据划分
数据格式
存储格式HDF5 / JSON(Isaac Sim 格式)
数据规模未知
压缩方式无
文件布局HDF5 格式;按 episode 分文件
索引方式HDF5 内部 attribute;language_goal 为索引键
格式版本HDF5 v2.0
episode
step
observation (RGB + depth + proprioception)
action
language_goal (continuous)
快速上手
加载数据
import h5py
with h5py.File('arnold_demo.hdf5', 'r') as f:
actions = f['actions'][:]
imgs = f['obs/agentview_image'][:]
lang = f['obs/language_goal'][:]依赖库
预处理说明
HDF5 格式;连续语言目标
数据内容
传感器规格
仿真 RGB 相机
深度相机
本体状态
数据统计
场景数20 个 3D 室内场景
物体数40 种
任务数8 语言条件操作任务(连续目标状态)
轨迹/片段数~10,000
标注信息
引用信息
@inproceedings{gong2023arnold,
title={ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes},
author={Gong, Ran and Huang, Jiangyong and Zhao, Yizhou and Geng, Haoran and Gao, Xiaofeng and Wu, Qingyang and Ai, Wensi and Zhou, Ziheng and Terzopoulos, Demetri and Zhu, Song-Chun and Jia, Baoxiong and Huang, Siyuan},
booktitle={ICCV},
year={2023}
}更新历史
2023-04
arXiv 预印本发布
2023-10
ICCV 2023 正式发表
2024-06
CVPR 2024 Embodied AI Workshop ARNOLD Challenge