LIBERO

评测基准

Stanford / AI2

LIBERO 是 Stanford / AI2 提出的终生机器人学习基准。

定义了 130 个语言条件操作任务，覆盖 5 大维度泛化测试（场景、物体、布局、任务组合、未见任务）。

数据以 HDF5 格式发布，提供 50+ 小时人类遥操作演示，支持连续学习评估。

📋 规范性要求

任务定义

🔴 必须

必须覆盖 130 个语言条件操作任务

含 5 大泛化维度：场景（Scene）、物体（Object）、布局（Spatial）、任务组合（Task）、未见任务（Novel）

数据组织

🔴 必须

数据必须以 HDF5 格式发布，兼容 robomimic

每个 demo 包含 states/actions/rewards/dones 和 obs group

评估协议

🔴 必须

必须按 5 个维度分别评估和报告

每个维度独立测试策略在该维度上的泛化性能

环境配置

🔴 必须

必须在 robosuite 仿真环境中运行

基于 MuJoCo 物理引擎，使用 Franka Panda 或 Kinova 机械臂

观测格式

🟡 建议

建议提供 agentview 和 eye_in_hand 双视角图像

同时提供 robot0_eef_pos/robot0_eef_quat/robot0_gripper_qpos 等低维状态

训练协议

🟢 可选

可选使用终生学习（Lifelong Learning）协议

顺序学习 130 个任务，测试知识积累和灾难性遗忘缓解能力

发布组织

Stanford / AI2

标准类型

评测基准

开放程度

● 完全开源

许可证

开源

适用场景

仿真

数据模态

RGB、Proprioception、Action