GR-1 人形机器人数据生态深度测评:从真机遥操作到百万级合成轨迹
人形机器人是 2025 年具身智能最火热的赛道,而数据是这条赛道上的核心燃料。GR-1 作为傅利叶智能推出的全尺寸人形机器人,围绕它已经形成了一个跨越真机遥操作和百万级仿真合成的数据生态。
本文从数据工程师的视角,逐一拆解当前 GR-1 相关的三大数据集,横向对比它们的规模、模态、适用场景和训练效果。
GR-1 机器人简介
GR-1(GR1-T1/T2)是傅利叶智能(Fourier Intelligence)于 2023 年发布的全尺寸通用人形机器人。身高 165cm,体重 55kg,全身 32 个自由度(后期 GR-2 调整为 29 个),配备双臂灵巧手(6-DoF 或 12-DoF)。
GR-1 的人形形态使其天然适合研究双臂协作、全身操作和移动操作——这恰好也是当前具身智能从「桌面机械臂」向「通用人形机器人」演进的核心方向。
围绕 GR-1,目前有三套公开数据集可用:
- Fourier ActionNet:傅利叶官方发布的真机遥操作数据集
- NVIDIA GR-1 仿真数据集:NVIDIA 在 Isaac Sim/Robocasa 中构建的仿真数据集系列
- GR00T N1 训练数据集:NVIDIA GTC 2025 发布的大规模混合数据集,伴随 GR00T N1 模型一同开源
一、Fourier ActionNet — 真机遥操作标杆
基本信息
| 维度 | 详情 |
|---|---|
| 发布方 | 傅利叶智能(Fourier Intelligence) |
| 发布时间 | 2025 年 3 月 |
| 数据规模 | 3 万+ 遥操作轨迹,约 140 小时交互数据 |
| 覆盖机型 | GR-1(GR1-T1/T2)和 GR-2 |
| 数据格式 | HDF5(关节状态)+ MP4(RGB 视频)+ MKV(深度视频) |
| 协议 | CC BY-NC-SA 4.0(数据)/ Apache 2.0(工具链) |
| HuggingFace | FourierIntelligence/ActionNet |
采集方式
使用 Apple Vision Pro 作为遥操作主控设备,搭配 OAK-D W 97 相机提供第一人称视角。操作员通过 Vision Pro 的手部追踪控制 GR-1 的双臂灵巧手执行任务。
HDF5 内部结构
每个 episode 是一个 HDF5 文件,内部结构为:
01JH00FCRH6EIBDXTA.hdf5
├── action/
│ ├── hand # [12, T] 或 [24, T](左右灵巧手关节)
│ ├── pose # [27, T](双臂末端 + 头部末端位姿)
│ └── robot # [32, T] 或 [29, T](全身关节位置)
├── state/ # 同上结构,为对应时刻的状态值
├── timestamp/ # [T] 共享时间戳
└── attributes/ # HDF5 属性元数据
注意:时间步 T 在列维度上(即数组为 [feature_dim, T] 的列主序布局),与常见的行主序不同。
标注方式
采用 Qwen2.5-VL-7B 视觉语言模型自动标注 + 人工二次核验的混合方式。任务覆盖取放、倾倒、开柜门、精密放置、噪声泛化操作等。
适配框架
支持 LeRobot、ACT、DP(Diffusion Policy)、iDP3 等主流训练框架。傅利叶提供了从数据采集到标注到训练到部署的全流程工具链。遥操作源码开源:github.com/FFTAI/teleoperation。
局限
- 全身行走数据暂未全量放出(目前以桌面/站姿操作为主)
- CC BY-NC-SA 4.0 协议限制商业使用
- 3 万轨迹对于预训练大型 VLA 模型仍然偏小
二、NVIDIA GR-1 仿真数据集
基本信息
NVIDIA 围绕 GR-1 发布了三个仿真子集,分布在不同的 HuggingFace 仓库中:
| 子集 | 规模 | 仿真引擎 | 任务 | 协议 |
|---|---|---|---|---|
| Arena-GR1-Manipulation-Task | 50 条轨迹(标注版 + 增强版) | Isaac Lab Arena | 开微波炉 | CC BY 4.0 |
| GR00T-Teleop-Sim(Robocasa GR1 Tabletop) | 1,000 条轨迹,24 个任务 | Robocasa | 桌面操作(取放、装箱等) | CC BY-NC 4.0 |
| GR00T-X-Embodiment-Sim(GR1 子集) | TB 级 | Isaac Sim | 倾倒、取放装箱等 | CC BY 4.0 |
Arena-GR1-Manipulation-Task
基于 Isaac Lab Arena 框架,包含 50 条 GR-1 开微波炉任务仿真轨迹。提供标注版(annotated)、增强版(augmented,通过 MimicGen 生成)和 LeRobot 转换版三种格式。这是 GR00T N1.5/N1.6 策略训练的官方 example 数据集。
GR00T-Teleop-Sim
1,000 条仿真遥操作轨迹,覆盖 24 个桌面操作任务。使用 GR-1 上半身控制在 Robocasa 仿真环境中采集。每条轨迹包含:44 维关节状态、44 维动作向量、256×256 20fps RGB 视频和语言指令。HDF5 格式约 14GB,LeRobot 格式约 39GB。
GR00T-X-Embodiment-Sim(GR1 子集)
TB 级大规模多具身仿真库中的 GR-1 部分。包含 gr1_full_upper_body.Pouring(上半身倾倒)、gr1_arms_waist.CuttingboardToCardboardBox(取放装箱)等子集。
局限
- 单个子集规模偏小(Arena 仅 50 条,Teleop-Sim 1000 条)
- 仿真场景与真机存在 Sim-to-Real gap
- 下载需注意 HuggingFace 仓库路径(模型 repo 和数据集 repo 同名问题)
三、GR00T N1 训练数据集
基本信息
NVIDIA 于 GTC 2025 发布了全球首个开源人形机器人基础模型 GR00T N1,伴随模型一同开源了其训练数据集。这是目前规模最大的 GR-1 人形训练数据。
数据金字塔:三层结构
GR00T N1 的训练数据采用三层金字塔架构:
| 层级 | 来源 | 规模 | 特点 |
|---|---|---|---|
| 顶层:真实遥操作 | 跨多机器人平台(含 GR-1) | 量少质高 | 人类专家遥操作采集,最贴近真实部署 |
| 中层:合成数据 | DexMimicGen + RoboCasa(Omniverse) | 78 万条合成轨迹 | ≈ 6,500 小时人工演示,GPU 并行生成 |
| 底层:互联网视频 | Ego4D + Ego-Exo4D | 互联网规模 | VQ-VAE 提取潜在动作 + 逆动力学模型推断伪动作 |
关键训练数据
GR00T N1 论文(arXiv:2503.14734)报告了以下核心实验结果——注意,以下数字来自真实 GR-1 机器人部署评测,非仿真:
| 模型 | 10% 数据 | 全量数据 |
|---|---|---|
| Diffusion Policy(基线) | 10.2% | 46.4% |
| GR00T N1-2B | 42.6% | 76.8% |
从这些数字可以得到几点洞察:
- 数据效率极高:仅用 10% 数据(42.6%)就接近 Diffusion Policy 全量数据的效果(46.4%)
- 合成数据有效:78 万合成轨迹的加入使性能从 ~42% 提升到 ~77%,接近翻倍
- 真实数据不可替代:仅有合成数据无法达到 76.8%,顶层真实遥操作数据仍是关键
按任务类别拆分的真机成功率(全量数据)
| 任务类别 | 成功率 |
|---|---|
| Pick-and-Place(取放) | 82.0% |
| Articulated(铰接物体:抽屉/柜门) | 70.9% |
| Industrial(工业:打包/倾倒/交接) | 70.0% |
| Coordination(双臂协调) | 82.5% |
GR00T N1 是一个 VLA(Vision-Language-Action)模型,采用双系统架构:Eagle-2 VLM(System 2)负责环境推理与动作规划,Diffusion Transformer(System 1)负责实时运动生成。模型权重和训练数据均以 Apache 2.0 协议在 HuggingFace 开源。
四、横向对比
| 维度 | Fourier ActionNet | NVIDIA GR-1 仿真 | GR00T N1 训练集 |
|---|---|---|---|
| 数据类型 | 真机遥操作 | 纯仿真 | 真机 + 合成 + 视频 |
| 轨迹规模 | 3 万 | 1,050+(不含 TB 级子集) | 78 万合成 + 真机 + 视频 |
| 存储体积 | 约 500GB | 14GB ~ TB 级 | TB 级 |
| 感官模态 | RGB + 深度 + 关节 + 力控 | RGB + 深度 + 关节 + 仿真状态 | 多视角 RGB-D + 本体状态 |
| 语言标注 | Qwen2.5-VL 自动 + 人工核验 | 含语言指令 | VLM 自动标注 |
| 协议 | CC BY-NC-SA 4.0(非商用) | CC BY 4.0 / CC BY-NC 4.0 | Apache 2.0 + CC BY 4.0 |
| 适配框架 | LeRobot / ACT / DP / iDP3 | Isaac Lab / GR00T N1.x | Isaac Lab / GR00T N1 / LeRobot |
| 商用许可 | ❌ 非商用,需联系授权 | ⚠️ 部分子集非商用 | ✅ Apache 2.0(代码) |
五、实战选型指南
场景一:快速上手人形机器人操作(学术研究)
推荐:Fourier ActionNet
理由:真机数据,格式标准化(HDF5 + MP4/MKV),适配 LeRobot/ACT/DP 等主流框架。3 万轨迹足够训练产生初步效果。非商用协议对学术研究友好。
场景二:训练 VLA 人形基础模型
推荐:GR00T N1 训练集
理由:规模最大,Apache 2.0 商用友好。78 万合成轨迹 + 真机数据 + 互联网视频的三层金字塔已被验证有效(全量数据 GR-1 真机 76.8% 成功率)。适合作为预训练基础 + 自有数据微调。
场景三:仿真到真机迁移(Sim-to-Real)研究
推荐:NVIDIA GR-1 仿真 + Fourier ActionNet 组合
理由:在仿真子集上训练,在真机数据集上评估 Sim-to-Real gap。Arena(50 条)和 Teleop-Sim(1000 条)提供可控的实验环境。
场景四:灵巧手 / 双臂协调专项
推荐:Fourier ActionNet
理由:ActionNet 包含 6-DoF(12 维)或 12-DoF(24 维)灵巧手数据,且双臂末端位姿(27 维)独立标注。GR00T N1 虽规模更大但灵巧手数据混合在多机器人平台中,不如 ActionNet 专注。
六、生态展望与开放问题
行走数据缺口:ActionNet 官方声明「全身行走数据暂未全量放出」。这意味着目前 GR-1 数据生态以桌面/站姿操作为主,全身移动操作(loco-manipulation)仍是一片空白。GR00T N1 的训练数据中虽包含 Ego4D 等人类行走视频,但这些是视觉层面的运动先验,而非 GR-1 本体执行的运动轨迹。
Sim-to-Real gap:GR00T N1 的 76.8% 是全量数据训练的结果,但论文同时显示纯仿真数据训练的基线(Diffusion Policy)只能达到 46.4%。这说明当前 GR-1 仿真数据(Arena + Teleop-Sim)的 fidelity 还不足以直接支撑真机部署,真实数据仍是必不可少的。
数据协议碎片化:三大数据集的协议各不相同(CC BY-NC-SA、CC BY、Apache 2.0),商用前需要仔细检查每个子集的许可证。
规模天花板:与互联网规模的视觉-语言数据集相比,人形机器人操作数据的规模仍差 3-4 个数量级。NVIDIA 的 78 万合成轨迹是一个很好的方向,但其质量上限取决于仿真引擎的物理精度。
参考资料
- GR00T N1 论文:arxiv.org/abs/2503.14734
- Fourier ActionNet:huggingface.co/datasets/FourierIntelligence/ActionNet
- NVIDIA GR-1 Arena:huggingface.co/datasets/nvidia/Arena-GR1-Manipulation-Task
- NVIDIA GR-1 Teleop-Sim:huggingface.co/datasets/nvidia/PhysicalAI-Robotics-GR00T-Teleop-Sim
- GR00T N1 权重:huggingface.co/nvidia/GR00T-N1-2B
- 傅利叶遥操作源码:github.com/FFTAI/teleoperation
- Isaac GR00T 框架:github.com/NVIDIA/Isaac-GR00T