ALOHA 数据集

开源

Stanford / Google DeepMind

ALOHA（A Low-cost Open-source Hardware System for Bimanual Teleoperation）是 Stanford 于 2023 年提出的低成本双臂遥操作平台，配套数据集已成为精细操作领域的标杆基准。

平台组成：
- ALOHA Stationary：双 ViperX 300 机械臂（6-DoF + 夹爪），桌面固定
- Mobile ALOHA：ALOHA 双臂 + AgileX Tracer 移动底盘，支持移动操作
- ALOHA 2（Google DeepMind 2024）：26,000+ 演示轨迹，5 项高难度灵巧任务

数据集组成：
- ALOHA Sim 数据集（~5 GB，Google Drive）：仿真 Transfer Cube / Bimanual Insertion 任务的脚本演示 + 人类遥操作数据
- Mobile ALOHA 数据集（50+ GB，TFDS）：真实场景下 7 类家务任务（炒虾、擦桌子、叠衣服等）
- LeRobot ALOHA 子集（HuggingFace）：`lerobot/aloha_static_coffee` 等多个标准化子集

适配算法：ACT、Diffusion Policy、VINN、DiT-Policy、π0 等。

协议：MIT（代码），CC BY 4.0（数据）。

机构

Stanford / Google DeepMind

规模

ALOHA Sim ~5 GB + Mobile ALOHA 50+ GB + ALOHA 2 26K+ 轨迹 + LeRobot 多子集

许可证

CC BY 4.0

机器人类型

机械臂多机型

任务类型

操作抓取装配

发布年份

2023

数据模态

RGB、本体状态、视觉

🤖 人工遥操作采集 + 仿真生成✅ 自动标注（动作记录）🏠 100%真机📊 有数据划分

VLA 框架兼容性

🧠 ACT🧠 π0

数据格式

存储格式HDF5 / LeRobot Parquet / TFDS

数据规模~5 GB (仿真) + 50+ GB (Mobile ALOHA) + LeRobot 多子集

压缩方式无

文件布局LeRobot v3 格式（meta/info.json + data/*.parquet + videos/*.mp4）；HDF5 格式（ACT 原始数据）

索引方式meta/info.json（全局 schema）+ meta/episodes/*.parquet（逐 episode 索引）

格式版本LeRobot Parquet v3.0 + HDF5 v2.0

episode

step

observation（multi-view RGB + proprioception）

action（dual-arm 14-DoF + gripper）

快速上手

加载数据

from lerobot.datasets import LeRobotDataset
dataset = LeRobotDataset('lerobot/aloha_static_coffee')
# 或从 HuggingFace 直接加载
from datasets import load_dataset
ds = load_dataset('lerobot/aloha_static_coffee')

依赖库

lerobottorchdatasetsopencv-python

预处理说明

多视角 4 相机 RGB；动作 14 维（双臂 7-DoF × 2）；LeRobot 格式下 episode_index + frame_index 已对齐

数据内容

传感器规格

多视角 RGB（4 相机）

本体状态（双机械臂关节位置）

数据统计

场景数桌面操作 + 移动操作（厨房、办公桌、家居）

物体数杯子、布料、餐具、食品、工具、小件零件等

任务数Transfer Cube、Bimanual Insertion、炒虾、擦桌子、叠衣服、拧瓶盖、挂衣架等

轨迹/片段数仿真 ~800 + Mobile ALOHA ~800 + ALOHA 2 26,000+ + LeRobot 多子集

标注信息

动作标签成功/失败标志任务描述（部分）