DROID

开源

Stanford / Google / UC Berkeley 等 18 机构联合

DROID（Distributed Robot Interaction Dataset）是 2024 年 3 月由 Stanford、Google、UC Berkeley 等 18 个研究机构联合发布的大规模真实环境机器人操作数据集。

采集规模：50 名数据采集员在 52 栋建筑、564 个场景中使用统一 Franka Panda 机械臂平台，历时 12 个月采集了 76,000+ 条操作轨迹（350 交互小时），含成功轨迹 ~76K + 失败轨迹 ~16K。

数据内容：每段轨迹含 3 个相机视角、深度信息、相机标定和语言标注。

格式与影响：以 RLDS 格式发布（1.7TB），兼容 Open X-Embodiment 生态。实验表明 DROID 联合训练可将策略性能、鲁棒性和泛化能力平均提升约 20%。

机构

Stanford / Google / UC Berkeley 等 18 机构联合

规模

7.6 万轨迹，564 场景，350 交互小时

许可证

CC BY 4.0

机器人类型

机械臂

任务类型

操作

发布年份

2024

数据模态

视觉、动作、语言

🤖 遥操作采集✅ 人工标注（语言指令）💻 100%真机（非实验室多场景）📊 有数据划分

VLA 框架兼容性

🧠 π0🧠 OpenVLA🧠 Octo🧠 RT-2🧠 RDT-1B🧠 GR00T N1

数据格式

存储格式RLDS（Google Cloud Storage）

数据规模1.7TB（完整）/ 2GB（示例 100 轨迹）

压缩方式gzip

文件布局RLDS 分片格式；按 recording session 分 episode

索引方式TFDS 内置索引；episode metadata 含 language_instruction

格式版本TFDS/RLDS

episode

step

observation (3× RGB + depth + calibration)

action

language_instruction

快速上手

加载数据

# DROID RLDS 格式
import tensorflow_datasets as tfds
ds = tfds.load('droid', split='train')
for episode in ds.take(1):
    for step in episode['steps']:
        img = step['observation']['image']
        action = step['action']
        lang = step['observation']['language_instruction']

依赖库

tensorflow-datasetstensorflow

预处理说明

RLDS 格式；3 视角 RGB-D；Franka Panda

数据内容

传感器规格

RGB 相机（3 视角）

深度相机

关节编码器

数据统计

场景数564（52 栋建筑，涵盖家居、办公、实验室等）

物体数86 种任务涉及大量日常物体

任务数86 种操作任务

轨迹/片段数76,000+

标注信息

自然语言指令动作序列相机标定参数成功/失败标签

引用信息

@inproceedings{khazatsky2024droid,
  title={DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset},
  author={Khazatsky, Alexander and Pertsch, Karl and others},
  journal={arXiv preprint arXiv:2403.12945},
  year={2024}
}