BridgeData V2
UC Berkeley RAIL
BridgeData V2 是由 UC Berkeley RAIL 实验室发布的大规模机器人操作数据集,包含 85,000 条真实机器人操作轨迹。
数据集通过低成本 WidowX 机械臂在多样化的桌面操作场景中采集,涵盖抓取、放置、推拉、叠放等基本操作技能。
该数据集广泛应用于小样本模仿学习、扩散策略和机器人基础模型训练,数据质量高且任务多样性丰富,是当前最常用的操作学习数据集之一。
机构
UC Berkeley RAIL
规模
85K 操纵轨迹
许可证
CC BY 4.0
机器人类型
机械臂
任务类型
操作
发布年份
2023
数据模态
视觉、动作
🤖 遥操作采集✅ 人工标注🏠 100%真机📊 有数据划分
VLA 框架兼容性
🧠 π0🧠 OpenVLA🧠 Octo🧠 RT-2🧠 RDT-1B🧠 GR00T N1
数据格式
存储格式RLDS / TFDS
数据规模200GB+
压缩方式gzip
文件布局按 episode 分 HDF5 文件;每个文件含 observation/action/discount/reward group;RLDS 兼容
索引方式TFDS 自动索引 + RLDS episode metadata
格式版本HDF5 v2.0 + TFDS/RLDS
episode
step
observation (image/state)
action
快速上手
加载数据
import tensorflow_datasets as tfds
ds = tfds.load('bridge_data_v2', split='train')
for episode in ds.take(1):
for step in episode['steps']:
img = step['observation']['image']
action = step['action']依赖库
预处理说明
图像原始尺寸 480x640,需 resize 到 224x224;动作 7 维(delta pose + gripper);语言指令在 episode 级 metadata 中
数据内容
传感器规格
RGB 相机 (640×480)
关节编码器
数据统计
场景数24 个桌面操作环境
物体数100+ 种日常物品
任务数13 种基本操作技能
轨迹/片段数85,000
标注信息
引用信息
@article{walke2023bridgedata,
title={BridgeData V2: A Dataset for Robot Learning at Scale},
author={Walke, Homer and others},
journal={arXiv preprint arXiv:2308.12952},
year={2023}
}更新历史
2023-08
BridgeData V2 发布,包含 85K 操作轨迹
2024-03
论文更新至 arXiv 2403.03954