← 返回全部数据集

DROID

开源

Stanford / Google / UC Berkeley 等 18 机构联合

DROID(Distributed Robot Interaction Dataset)是 2024 年 3 月由 Stanford、Google、UC Berkeley 等 18 个研究机构联合发布的大规模真实环境机器人操作数据集。

采集规模:50 名数据采集员在 52 栋建筑、564 个场景中使用统一 Franka Panda 机械臂平台,历时 12 个月采集了 76,000+ 条操作轨迹(350 交互小时),含成功轨迹 ~76K + 失败轨迹 ~16K。

数据内容:每段轨迹含 3 个相机视角、深度信息、相机标定和语言标注。

格式与影响:以 RLDS 格式发布(1.7TB),兼容 Open X-Embodiment 生态。实验表明 DROID 联合训练可将策略性能、鲁棒性和泛化能力平均提升约 20%

机构
Stanford / Google / UC Berkeley 等 18 机构联合
规模
7.6 万轨迹,564 场景,350 交互小时
许可证
CC BY 4.0
机器人类型
机械臂
任务类型
操作
发布年份
2024
数据模态
视觉、动作、语言
🤖 遥操作采集✅ 人工标注(语言指令)💻 100%真机(非实验室多场景)📊 有数据划分

VLA 框架兼容性

🧠 π0🧠 OpenVLA🧠 Octo🧠 RT-2🧠 RDT-1B🧠 GR00T N1

数据格式

存储格式RLDS(Google Cloud Storage)
数据规模1.7TB(完整)/ 2GB(示例 100 轨迹)
压缩方式gzip
文件布局RLDS 分片格式;按 recording session 分 episode
索引方式TFDS 内置索引;episode metadata 含 language_instruction
格式版本TFDS/RLDS
episode
step
observation (3× RGB + depth + calibration)
action
language_instruction

快速上手

加载数据

# DROID RLDS 格式
import tensorflow_datasets as tfds
ds = tfds.load('droid', split='train')
for episode in ds.take(1):
    for step in episode['steps']:
        img = step['observation']['image']
        action = step['action']
        lang = step['observation']['language_instruction']

依赖库

tensorflow-datasetstensorflow

预处理说明

RLDS 格式;3 视角 RGB-D;Franka Panda

数据内容

传感器规格

RGB 相机(3 视角)
深度相机
关节编码器

数据统计

场景数564(52 栋建筑,涵盖家居、办公、实验室等)
物体数86 种任务涉及大量日常物体
任务数86 种操作任务
轨迹/片段数76,000+

标注信息

自然语言指令动作序列相机标定参数成功/失败标签

相关链接

引用信息

@inproceedings{khazatsky2024droid,
  title={DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset},
  author={Khazatsky, Alexander and Pertsch, Karl and others},
  journal={arXiv preprint arXiv:2403.12945},
  year={2024}
}

更新历史

2024-03
首次发布:76K 轨迹、564 场景、350h 交互数据

采用的数据标准

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配