MimicGen
NVIDIA Research
MimicGen 是 NVIDIA Research 在 CoRL 2023 发表的数据生成系统,可在仿真环境中从少量人类演示(每任务 10 条)自动合成大规模、多样化的机器人操作数据集。
数据构成:包含 source(120 条人类演示)、core(26,000 条生成数据,26 种分布变体)、robot(16,000 条,4 种不同机械臂)、object(2,000 条,不同物体)和 large_interpolation(6,000 条高难度)五种类型,总计 48,000+ 条演示轨迹。
数据以 HDF5 格式发布在 Hugging Face,兼容 robomimic 框架,可直接用于 BC、BC-RNN、BC-Transformer 等模仿学习算法。
机构
NVIDIA Research
规模
4.8 万+ 演示,12 任务,4 种机械臂
许可证
CC BY 4.0
机器人类型
机械臂
任务类型
操作
发布年份
2023
数据模态
视觉、动作
🤖 仿真生成✅ 自动生成(MimicGen 数据增强)💻 仿真📊 有数据划分
VLA 框架兼容性
🧠 π0
数据格式
存储格式HDF5(Hugging Face 托管)
数据规模未知
压缩方式HDF5 内压缩
文件布局按 task 分 HDF5 文件(source/core/object/robot/large_interpolation 5 类)
索引方式HDF5 属性 total + env_args;mask/ group 定义 train/valid 划分
格式版本HDF5 v2.0(robomimic 兼容)
demonstration
states
actions
rewards
dones (robomimic 兼容)
快速上手
加载数据
import h5py
with h5py.File('mimicgen_demo.hdf5', 'r') as f:
demo = f['data/demo_0']
actions = demo['actions'][:]
obs = demo['obs/agentview_image'][:]依赖库
预处理说明
robomimic 兼容;48,000 演示;可用 robomimic SequenceDataset 加载
数据内容
传感器规格
仿真 RGB 相机
关节状态
数据统计
场景数仿真桌面操作场景
物体数多种日常物体(方块、杯子、咖啡机等)
任务数12 种操作任务(拾放、堆叠、倒咖啡、开门等)
轨迹/片段数48,000+
标注信息
引用信息
@inproceedings{mandlekar2023mimicgen,
title={MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations},
author={Mandlekar, Ajay and Nasiriany, Soroush and Wen, Bowen and Akinola, Iretiayo and Narang, Yashraj and Fan, Linxi and Zhu, Yuke and Fox, Dieter},
booktitle={CoRL},
year={2023}
}更新历史
2023-11
CoRL 2023 发布:48K+ 演示,12 任务,4 种机械臂变体
2024-09
迁移至 Hugging Face 托管,废弃 Google Drive 链接