← 返回全部数据集

GR00T N1 官方数据集

开源

NVIDIA

GR00T N1 官方数据集是 NVIDIA 于 GTC 2025 伴随 GR00T N1 模型发布的大规模人形机器人训练数据集。数据金字塔三层:真实遥操作轨迹(顶层,量少质高)跨多机器人平台;合成数据(中层)通过 DexMimicGen + RoboCasa 在 Omniverse 中生成 78 万条合成轨迹(相当于 6,500 小时人工演示);互联网视频(底层,量最大)Ego4D、Ego-Exo4D 等。合成 + 真实混合训练比纯真实数据性能提升 40%;仅用 10% 数据在 Fourier GR-1 上达 42.6% 成功率,全量数据达 76.8%。协议:Apache 2.0(代码),CC BY 4.0(数据)。与网站已有的 NVIDIA GR-1 仿真数据集互补。

机构
NVIDIA
规模
78 万合成轨迹 + 真实遥操作 + 人类视频(Ego4D/Ego-Exo4D)
许可证
Apache 2.0 / CC BY 4.0
机器人类型
人形机器人 仿真
任务类型
操作 运动控制 交互
发布年份
2025
数据模态
RGB、深度、本体状态、仿真状态、视觉
🤖 多源聚合(真机遥操作 + 合成生成 + 互联网视频)✅ 自动标注(VLM + 逆动力学推断)💻 100%真机(遥操作层)📊 有数据划分

VLA 框架兼容性

🧠 GR00T N1

数据格式

存储格式LeRobot 格式 + HDF5 + MP4
数据规模TB 级
压缩方式HDF5 压缩
文件布局LeRobot 格式 + HDF5 + MP4;按数据源分层组织
索引方式LeRobot meta/info.json + 数据源分层元数据
格式版本LeRobot Parquet v3.0 + HDF5 v2.0 + MP4
episode -> step -> observation(RGB + proprioception)
action(full-body joint_targets)
language_instruction

快速上手

加载数据

# GR00T N1 权重 + 数据在 HuggingFace
from datasets import load_dataset
ds = load_dataset('nvidia/GR00T-N1-2B', split='train')
# 或通过 Isaac Lab 加载合成数据
from isaaclab.utils import load_groot_data

依赖库

datasetstorchh5py

预处理说明

LeRobot + HDF5;TB 级;三层金字塔

数据内容

传感器规格

多视角 RGB-D
本体状态
末端执行器位姿

数据统计

场景数仿真桌面操作 + 真实室内外场景
物体数多样化家具与日常物品(抽屉、微波炉、杯子、工具等)
任务数人形行走、搬运物体、开关家具、桌面操作、双臂协作
轨迹/片段数78 万合成轨迹 + 真实遥操作 + 互联网视频

标注信息

语言任务描述动作标签物体 6-DoF 位姿

相关链接

采用的数据标准

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配