ARNOLD

开源

UCLA / 北京大学 / 清华大学 / BIGAI

ARNOLD（A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes）是 ICCV 2023 发布、CVPR 2024 Embodied AI Workshop 举办挑战赛的语言条件操作基准。

核心特色：不同于传统离散目标（开/关），ARNOLD 聚焦连续目标状态（如打开抽屉 50%、将瓶子举到特定高度、旋转到指定角度），更贴近真实操作需求。

基准规模：在 NVIDIA Isaac Sim 中构建了 20 个逼真 3D 室内场景、40 种物体、8 个语言条件任务（拾放、旋转、开关抽屉/柜门、倒水/移水），含 ~10K 专家演示及模板生成的语言指令。

基准评估显示当前最先进的语言条件策略模型在未见场景、物体和目标状态的泛化上仍面临巨大挑战。

机构

UCLA / 北京大学 / 清华大学 / BIGAI

规模

8 语言条件任务，40 物体，20 场景，~10K 专家演示

许可证

MIT

机器人类型

机械臂

任务类型

操作

发布年份

2023

数据模态

视觉、语言、动作

🤖 仿真生成✅ 模板自动生成（语言指令）💻 仿真📊 有数据划分

数据格式

存储格式HDF5 / JSON（Isaac Sim 格式）

数据规模未知

压缩方式无

文件布局HDF5 格式；按 episode 分文件

索引方式HDF5 内部 attribute；language_goal 为索引键

格式版本HDF5 v2.0

episode

step

observation (RGB + depth + proprioception)

action

language_goal (continuous)

快速上手

加载数据

import h5py
with h5py.File('arnold_demo.hdf5', 'r') as f:
    actions = f['actions'][:]
    imgs = f['obs/agentview_image'][:]
    lang = f['obs/language_goal'][:]

依赖库

h5pynumpy

预处理说明

HDF5 格式；连续语言目标

数据内容

传感器规格

仿真 RGB 相机

深度相机

本体状态

数据统计

场景数20 个 3D 室内场景

物体数40 种

任务数8 语言条件操作任务（连续目标状态）

轨迹/片段数~10,000

标注信息

模板生成语言指令连续目标状态场景/物体标签

引用信息

@inproceedings{gong2023arnold,
  title={ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous States in Realistic 3D Scenes},
  author={Gong, Ran and Huang, Jiangyong and Zhao, Yizhou and Geng, Haoran and Gao, Xiaofeng and Wu, Qingyang and Ai, Wensi and Zhou, Ziheng and Terzopoulos, Demetri and Zhu, Song-Chun and Jia, Baoxiong and Huang, Siyuan},
  booktitle={ICCV},
  year={2023}
}

更新历史

2023-04

arXiv 预印本发布

2023-10

ICCV 2023 正式发表

2024-06

CVPR 2024 Embodied AI Workshop ARNOLD Challenge