Open X-Embodiment
Google DeepMind
Open X-Embodiment 是由 Google DeepMind 联合全球 34 家研究机构共同推出的跨具身机器人学习数据集。
该数据集聚合了来自 22 种不同机器人形态的 60+ 个独立数据集,总计超过 100 万条真实机器人操作轨迹。所有数据基于 RLDS(Reinforcement Learning Datasets Standard)格式统一编码,涵盖视觉、本体状态和动作等多种模态。
该数据集是训练 RT-1、RT-2、RT-X 等机器人基础模型的核心数据源,也是目前规模最大、最具影响力的开源机器人学习数据集之一。
机构
Google DeepMind
规模
15 种机器人,100W+ 轨迹
许可证
Apache 2.0
机器人类型
多机型
任务类型
操作
发布年份
2024
数据模态
视觉、本体状态、动作
🤖 多源聚合✅ 部分人工标注🏠 100%真机📊 有数据划分
VLA 框架兼容性
🧠 π0🧠 OpenVLA🧠 Octo🧠 RT-2🧠 RDT-1B🧠 GR00T N1
数据格式
存储格式RLDS / TFDS
数据规模1TB+
压缩方式gzip
文件布局RLDS 格式(tf.data.Dataset of Episodes);每 episode 含 steps Dataset + episode metadata
索引方式TFDS 内置索引(支持 sharding + deterministic shuffle)
格式版本TFDS/RLDS(底层 HDF5 或 sharded TFRecord)
episode
step
observation
action
reward
discount
快速上手
加载数据
import tensorflow_datasets as tfds
ds = tfds.load('fractal20220817_data', split='train')
for episode in ds.take(1):
for step in episode['steps']:
img = step['observation']['image']
action = step['action']
lang = step['observation'].get('natural_language_instruction', b'').decode()依赖库
预处理说明
图像已统一 resize 到 320x256(OXE 标准);动作 7 维 EEF(world_vector + rotation_delta + gripper);60+ 子集需指定 TFDS dataset name
数据内容
传感器规格
RGB 相机
深度相机(部分)
关节编码器
数据统计
场景数多场景
物体数数千种
任务数数百种操作任务
轨迹/片段数1,000,000+
标注信息
引用信息
@article{openx2024,
title={Open X-Embodiment: Robotic Learning Datasets and RT-X Models},
author={Open X-Embodiment Collaboration},
journal={arXiv preprint arXiv:2310.08864},
year={2024}
}更新历史
2023-10
首次发布,包含来自 22 种机器人形态的 60+ 数据集
2024-01
RT-X 模型发布,数据集扩展至 100万+ 轨迹