DROID
Stanford / Google / UC Berkeley 等 18 机构联合
DROID(Distributed Robot Interaction Dataset)是 2024 年 3 月由 Stanford、Google、UC Berkeley 等 18 个研究机构联合发布的大规模真实环境机器人操作数据集。
采集规模:50 名数据采集员在 52 栋建筑、564 个场景中使用统一 Franka Panda 机械臂平台,历时 12 个月采集了 76,000+ 条操作轨迹(350 交互小时),含成功轨迹 ~76K + 失败轨迹 ~16K。
数据内容:每段轨迹含 3 个相机视角、深度信息、相机标定和语言标注。
格式与影响:以 RLDS 格式发布(1.7TB),兼容 Open X-Embodiment 生态。实验表明 DROID 联合训练可将策略性能、鲁棒性和泛化能力平均提升约 20%。
机构
Stanford / Google / UC Berkeley 等 18 机构联合
规模
7.6 万轨迹,564 场景,350 交互小时
许可证
CC BY 4.0
机器人类型
机械臂
任务类型
操作
发布年份
2024
数据模态
视觉、动作、语言
🤖 遥操作采集✅ 人工标注(语言指令)💻 100%真机(非实验室多场景)📊 有数据划分
VLA 框架兼容性
🧠 π0🧠 OpenVLA🧠 Octo🧠 RT-2🧠 RDT-1B🧠 GR00T N1
数据格式
存储格式RLDS(Google Cloud Storage)
数据规模1.7TB(完整)/ 2GB(示例 100 轨迹)
压缩方式gzip
文件布局RLDS 分片格式;按 recording session 分 episode
索引方式TFDS 内置索引;episode metadata 含 language_instruction
格式版本TFDS/RLDS
episode
step
observation (3× RGB + depth + calibration)
action
language_instruction
快速上手
加载数据
# DROID RLDS 格式
import tensorflow_datasets as tfds
ds = tfds.load('droid', split='train')
for episode in ds.take(1):
for step in episode['steps']:
img = step['observation']['image']
action = step['action']
lang = step['observation']['language_instruction']依赖库
预处理说明
RLDS 格式;3 视角 RGB-D;Franka Panda
数据内容
传感器规格
RGB 相机(3 视角)
深度相机
关节编码器
数据统计
场景数564(52 栋建筑,涵盖家居、办公、实验室等)
物体数86 种任务涉及大量日常物体
任务数86 种操作任务
轨迹/片段数76,000+
标注信息
引用信息
@inproceedings{khazatsky2024droid,
title={DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset},
author={Khazatsky, Alexander and Pertsch, Karl and others},
journal={arXiv preprint arXiv:2403.12945},
year={2024}
}更新历史
2024-03
首次发布:76K 轨迹、564 场景、350h 交互数据