GR00T N1 官方数据集
NVIDIA
GR00T N1 官方数据集是 NVIDIA 于 GTC 2025 伴随 GR00T N1 模型发布的大规模人形机器人训练数据集。数据金字塔三层:真实遥操作轨迹(顶层,量少质高)跨多机器人平台;合成数据(中层)通过 DexMimicGen + RoboCasa 在 Omniverse 中生成 78 万条合成轨迹(相当于 6,500 小时人工演示);互联网视频(底层,量最大)Ego4D、Ego-Exo4D 等。合成 + 真实混合训练比纯真实数据性能提升 40%;仅用 10% 数据在 Fourier GR-1 上达 42.6% 成功率,全量数据达 76.8%。协议:Apache 2.0(代码),CC BY 4.0(数据)。与网站已有的 NVIDIA GR-1 仿真数据集互补。
机构
NVIDIA
规模
78 万合成轨迹 + 真实遥操作 + 人类视频(Ego4D/Ego-Exo4D)
许可证
Apache 2.0 / CC BY 4.0
机器人类型
人形机器人 仿真
任务类型
操作 运动控制 交互
发布年份
2025
数据模态
RGB、深度、本体状态、仿真状态、视觉
🤖 多源聚合(真机遥操作 + 合成生成 + 互联网视频)✅ 自动标注(VLM + 逆动力学推断)💻 100%真机(遥操作层)📊 有数据划分
VLA 框架兼容性
🧠 GR00T N1
数据格式
存储格式LeRobot 格式 + HDF5 + MP4
数据规模TB 级
压缩方式HDF5 压缩
文件布局LeRobot 格式 + HDF5 + MP4;按数据源分层组织
索引方式LeRobot meta/info.json + 数据源分层元数据
格式版本LeRobot Parquet v3.0 + HDF5 v2.0 + MP4
episode -> step -> observation(RGB + proprioception)
action(full-body joint_targets)
language_instruction
快速上手
加载数据
# GR00T N1 权重 + 数据在 HuggingFace
from datasets import load_dataset
ds = load_dataset('nvidia/GR00T-N1-2B', split='train')
# 或通过 Isaac Lab 加载合成数据
from isaaclab.utils import load_groot_data依赖库
预处理说明
LeRobot + HDF5;TB 级;三层金字塔
数据内容
传感器规格
多视角 RGB-D
本体状态
末端执行器位姿
数据统计
场景数仿真桌面操作 + 真实室内外场景
物体数多样化家具与日常物品(抽屉、微波炉、杯子、工具等)
任务数人形行走、搬运物体、开关家具、桌面操作、双臂协作
轨迹/片段数78 万合成轨迹 + 真实遥操作 + 互联网视频