← 返回博客

GR-1 人形机器人数据生态深度测评:从真机遥操作到百万级合成轨迹

2026-06-08 作者 Superdata RobotAI
GR-1人形机器人数据集评测VLAGR00TActionNetSim-to-Real

人形机器人是 2025 年具身智能最火热的赛道,而数据是这条赛道上的核心燃料。GR-1 作为傅利叶智能推出的全尺寸人形机器人,围绕它已经形成了一个跨越真机遥操作和百万级仿真合成的数据生态。

本文从数据工程师的视角,逐一拆解当前 GR-1 相关的三大数据集,横向对比它们的规模、模态、适用场景和训练效果。

GR-1 机器人简介

GR-1(GR1-T1/T2)是傅利叶智能(Fourier Intelligence)于 2023 年发布的全尺寸通用人形机器人。身高 165cm,体重 55kg,全身 32 个自由度(后期 GR-2 调整为 29 个),配备双臂灵巧手(6-DoF 或 12-DoF)。

GR-1 的人形形态使其天然适合研究双臂协作、全身操作和移动操作——这恰好也是当前具身智能从「桌面机械臂」向「通用人形机器人」演进的核心方向。

围绕 GR-1,目前有三套公开数据集可用:

  • Fourier ActionNet:傅利叶官方发布的真机遥操作数据集
  • NVIDIA GR-1 仿真数据集:NVIDIA 在 Isaac Sim/Robocasa 中构建的仿真数据集系列
  • GR00T N1 训练数据集:NVIDIA GTC 2025 发布的大规模混合数据集,伴随 GR00T N1 模型一同开源

一、Fourier ActionNet — 真机遥操作标杆

基本信息

维度详情
发布方傅利叶智能(Fourier Intelligence)
发布时间2025 年 3 月
数据规模3 万+ 遥操作轨迹,约 140 小时交互数据
覆盖机型GR-1(GR1-T1/T2)和 GR-2
数据格式HDF5(关节状态)+ MP4(RGB 视频)+ MKV(深度视频)
协议CC BY-NC-SA 4.0(数据)/ Apache 2.0(工具链)
HuggingFaceFourierIntelligence/ActionNet

采集方式

使用 Apple Vision Pro 作为遥操作主控设备,搭配 OAK-D W 97 相机提供第一人称视角。操作员通过 Vision Pro 的手部追踪控制 GR-1 的双臂灵巧手执行任务。

HDF5 内部结构

每个 episode 是一个 HDF5 文件,内部结构为:

01JH00FCRH6EIBDXTA.hdf5
├── action/
│   ├── hand    # [12, T] 或 [24, T](左右灵巧手关节)
│   ├── pose    # [27, T](双臂末端 + 头部末端位姿)
│   └── robot   # [32, T] 或 [29, T](全身关节位置)
├── state/      # 同上结构,为对应时刻的状态值
├── timestamp/  # [T] 共享时间戳
└── attributes/ # HDF5 属性元数据

注意:时间步 T 在列维度上(即数组为 [feature_dim, T] 的列主序布局),与常见的行主序不同。

标注方式

采用 Qwen2.5-VL-7B 视觉语言模型自动标注 + 人工二次核验的混合方式。任务覆盖取放、倾倒、开柜门、精密放置、噪声泛化操作等。

适配框架

支持 LeRobot、ACT、DP(Diffusion Policy)、iDP3 等主流训练框架。傅利叶提供了从数据采集到标注到训练到部署的全流程工具链。遥操作源码开源:github.com/FFTAI/teleoperation

局限

  • 全身行走数据暂未全量放出(目前以桌面/站姿操作为主)
  • CC BY-NC-SA 4.0 协议限制商业使用
  • 3 万轨迹对于预训练大型 VLA 模型仍然偏小

二、NVIDIA GR-1 仿真数据集

基本信息

NVIDIA 围绕 GR-1 发布了三个仿真子集,分布在不同的 HuggingFace 仓库中:

子集规模仿真引擎任务协议
Arena-GR1-Manipulation-Task50 条轨迹(标注版 + 增强版)Isaac Lab Arena开微波炉CC BY 4.0
GR00T-Teleop-Sim(Robocasa GR1 Tabletop)1,000 条轨迹,24 个任务Robocasa桌面操作(取放、装箱等)CC BY-NC 4.0
GR00T-X-Embodiment-Sim(GR1 子集)TB 级Isaac Sim倾倒、取放装箱等CC BY 4.0

Arena-GR1-Manipulation-Task

基于 Isaac Lab Arena 框架,包含 50 条 GR-1 开微波炉任务仿真轨迹。提供标注版(annotated)、增强版(augmented,通过 MimicGen 生成)和 LeRobot 转换版三种格式。这是 GR00T N1.5/N1.6 策略训练的官方 example 数据集。

GR00T-Teleop-Sim

1,000 条仿真遥操作轨迹,覆盖 24 个桌面操作任务。使用 GR-1 上半身控制在 Robocasa 仿真环境中采集。每条轨迹包含:44 维关节状态、44 维动作向量、256×256 20fps RGB 视频和语言指令。HDF5 格式约 14GB,LeRobot 格式约 39GB。

GR00T-X-Embodiment-Sim(GR1 子集)

TB 级大规模多具身仿真库中的 GR-1 部分。包含 gr1_full_upper_body.Pouring(上半身倾倒)、gr1_arms_waist.CuttingboardToCardboardBox(取放装箱)等子集。

局限

  • 单个子集规模偏小(Arena 仅 50 条,Teleop-Sim 1000 条)
  • 仿真场景与真机存在 Sim-to-Real gap
  • 下载需注意 HuggingFace 仓库路径(模型 repo 和数据集 repo 同名问题)

三、GR00T N1 训练数据集

基本信息

NVIDIA 于 GTC 2025 发布了全球首个开源人形机器人基础模型 GR00T N1,伴随模型一同开源了其训练数据集。这是目前规模最大的 GR-1 人形训练数据

数据金字塔:三层结构

GR00T N1 的训练数据采用三层金字塔架构:

层级来源规模特点
顶层:真实遥操作跨多机器人平台(含 GR-1)量少质高人类专家遥操作采集,最贴近真实部署
中层:合成数据DexMimicGen + RoboCasa(Omniverse)78 万条合成轨迹≈ 6,500 小时人工演示,GPU 并行生成
底层:互联网视频Ego4D + Ego-Exo4D互联网规模VQ-VAE 提取潜在动作 + 逆动力学模型推断伪动作

关键训练数据

GR00T N1 论文(arXiv:2503.14734)报告了以下核心实验结果——注意,以下数字来自真实 GR-1 机器人部署评测,非仿真:

模型10% 数据全量数据
Diffusion Policy(基线)10.2%46.4%
GR00T N1-2B42.6%76.8%

从这些数字可以得到几点洞察:

  1. 数据效率极高:仅用 10% 数据(42.6%)就接近 Diffusion Policy 全量数据的效果(46.4%)
  2. 合成数据有效:78 万合成轨迹的加入使性能从 ~42% 提升到 ~77%,接近翻倍
  3. 真实数据不可替代:仅有合成数据无法达到 76.8%,顶层真实遥操作数据仍是关键

按任务类别拆分的真机成功率(全量数据)

任务类别成功率
Pick-and-Place(取放)82.0%
Articulated(铰接物体:抽屉/柜门)70.9%
Industrial(工业:打包/倾倒/交接)70.0%
Coordination(双臂协调)82.5%

GR00T N1 是一个 VLA(Vision-Language-Action)模型,采用双系统架构:Eagle-2 VLM(System 2)负责环境推理与动作规划,Diffusion Transformer(System 1)负责实时运动生成。模型权重和训练数据均以 Apache 2.0 协议在 HuggingFace 开源。

四、横向对比

维度Fourier ActionNetNVIDIA GR-1 仿真GR00T N1 训练集
数据类型真机遥操作纯仿真真机 + 合成 + 视频
轨迹规模3 万1,050+(不含 TB 级子集)78 万合成 + 真机 + 视频
存储体积约 500GB14GB ~ TB 级TB 级
感官模态RGB + 深度 + 关节 + 力控RGB + 深度 + 关节 + 仿真状态多视角 RGB-D + 本体状态
语言标注Qwen2.5-VL 自动 + 人工核验含语言指令VLM 自动标注
协议CC BY-NC-SA 4.0(非商用)CC BY 4.0 / CC BY-NC 4.0Apache 2.0 + CC BY 4.0
适配框架LeRobot / ACT / DP / iDP3Isaac Lab / GR00T N1.xIsaac Lab / GR00T N1 / LeRobot
商用许可❌ 非商用,需联系授权⚠️ 部分子集非商用✅ Apache 2.0(代码)

五、实战选型指南

场景一:快速上手人形机器人操作(学术研究)

推荐:Fourier ActionNet

理由:真机数据,格式标准化(HDF5 + MP4/MKV),适配 LeRobot/ACT/DP 等主流框架。3 万轨迹足够训练产生初步效果。非商用协议对学术研究友好。

场景二:训练 VLA 人形基础模型

推荐:GR00T N1 训练集

理由:规模最大,Apache 2.0 商用友好。78 万合成轨迹 + 真机数据 + 互联网视频的三层金字塔已被验证有效(全量数据 GR-1 真机 76.8% 成功率)。适合作为预训练基础 + 自有数据微调。

场景三:仿真到真机迁移(Sim-to-Real)研究

推荐:NVIDIA GR-1 仿真 + Fourier ActionNet 组合

理由:在仿真子集上训练,在真机数据集上评估 Sim-to-Real gap。Arena(50 条)和 Teleop-Sim(1000 条)提供可控的实验环境。

场景四:灵巧手 / 双臂协调专项

推荐:Fourier ActionNet

理由:ActionNet 包含 6-DoF(12 维)或 12-DoF(24 维)灵巧手数据,且双臂末端位姿(27 维)独立标注。GR00T N1 虽规模更大但灵巧手数据混合在多机器人平台中,不如 ActionNet 专注。

六、生态展望与开放问题

行走数据缺口:ActionNet 官方声明「全身行走数据暂未全量放出」。这意味着目前 GR-1 数据生态以桌面/站姿操作为主,全身移动操作(loco-manipulation)仍是一片空白。GR00T N1 的训练数据中虽包含 Ego4D 等人类行走视频,但这些是视觉层面的运动先验,而非 GR-1 本体执行的运动轨迹。

Sim-to-Real gap:GR00T N1 的 76.8% 是全量数据训练的结果,但论文同时显示纯仿真数据训练的基线(Diffusion Policy)只能达到 46.4%。这说明当前 GR-1 仿真数据(Arena + Teleop-Sim)的 fidelity 还不足以直接支撑真机部署,真实数据仍是必不可少的。

数据协议碎片化:三大数据集的协议各不相同(CC BY-NC-SA、CC BY、Apache 2.0),商用前需要仔细检查每个子集的许可证。

规模天花板:与互联网规模的视觉-语言数据集相比,人形机器人操作数据的规模仍差 3-4 个数量级。NVIDIA 的 78 万合成轨迹是一个很好的方向,但其质量上限取决于仿真引擎的物理精度。

参考资料

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配