← 返回全部数据集

MimicGen

开源

NVIDIA Research

MimicGen 是 NVIDIA Research 在 CoRL 2023 发表的数据生成系统,可在仿真环境中从少量人类演示(每任务 10 条)自动合成大规模、多样化的机器人操作数据集。

数据构成:包含 source(120 条人类演示)、core(26,000 条生成数据,26 种分布变体)、robot(16,000 条,4 种不同机械臂)、object(2,000 条,不同物体)和 large_interpolation(6,000 条高难度)五种类型,总计 48,000+ 条演示轨迹。

数据以 HDF5 格式发布在 Hugging Face,兼容 robomimic 框架,可直接用于 BC、BC-RNN、BC-Transformer 等模仿学习算法。

机构
NVIDIA Research
规模
4.8 万+ 演示,12 任务,4 种机械臂
许可证
CC BY 4.0
机器人类型
机械臂
任务类型
操作
发布年份
2023
数据模态
视觉、动作
🤖 仿真生成✅ 自动生成(MimicGen 数据增强)💻 仿真📊 有数据划分

VLA 框架兼容性

🧠 π0

数据格式

存储格式HDF5(Hugging Face 托管)
数据规模未知
压缩方式HDF5 内压缩
文件布局按 task 分 HDF5 文件(source/core/object/robot/large_interpolation 5 类)
索引方式HDF5 属性 total + env_args;mask/ group 定义 train/valid 划分
格式版本HDF5 v2.0(robomimic 兼容)
demonstration
states
actions
rewards
dones (robomimic 兼容)

快速上手

加载数据

import h5py
with h5py.File('mimicgen_demo.hdf5', 'r') as f:
    demo = f['data/demo_0']
    actions = demo['actions'][:]
    obs = demo['obs/agentview_image'][:]

依赖库

h5pynumpyrobomimic

预处理说明

robomimic 兼容;48,000 演示;可用 robomimic SequenceDataset 加载

数据内容

传感器规格

仿真 RGB 相机
关节状态

数据统计

场景数仿真桌面操作场景
物体数多种日常物体(方块、杯子、咖啡机等)
任务数12 种操作任务(拾放、堆叠、倒咖啡、开门等)
轨迹/片段数48,000+

标注信息

任务标签机器人型号物体变体分布变体

相关链接

引用信息

@inproceedings{mandlekar2023mimicgen,
  title={MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations},
  author={Mandlekar, Ajay and Nasiriany, Soroush and Wen, Bowen and Akinola, Iretiayo and Narang, Yashraj and Fan, Linxi and Zhu, Yuke and Fox, Dieter},
  booktitle={CoRL},
  year={2023}
}

更新历史

2023-11
CoRL 2023 发布:48K+ 演示,12 任务,4 种机械臂变体
2024-09
迁移至 Hugging Face 托管,废弃 Google Drive 链接

采用的数据标准

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配