Language-Conditioned Policy Learning Benchmark
CALVIN
ETH Zurich
CALVIN Benchmark 是 ETH Zurich 提出的语言条件长序列机器人操作基准。
定义了一套标准化的任务定义格式、评估协议和数据划分(ABCD 四分割),测试策略在未见环境、未见指令、未见物体上的泛化能力。
基于 PyBullet 仿真,提供 20,000+ 条遥操作演示数据。
📋 规范性要求
任务定义
🔴 必须
任务必须以自然语言指令定义
每个 episode 包含一条语言指令,如 'open the drawer and place the block inside'
数据划分
🔴 必须
必须遵循 ABCD 四分割评估协议
A/B/C/D 分别对应不同环境/指令/物体的组合,测试跨域泛化能力
🟢 可选
可选使用 long-horizon 评估协议测试长序列能力
连续执行 5 个指令组成的序列,测试策略的长程规划能力
评估指标
🔴 必须
必须使用任务完成率(Success Rate)作为主要指标
按任务类型分别统计,同时报告平均完成率和每个任务的成功率
环境配置
🔴 必须
环境必须在 PyBullet 中运行,使用 Franka Panda 机器人
含桌面操作区域和抽屉、按钮、滑块等交互对象
观测格式
🟡 建议
建议提供 RGB 图像和 proprioceptive state
static camera 和 gripper camera 双视角,state 含 7-DoF 关节位置
发布组织
ETH Zurich
标准类型
评测基准
开放程度
● 完全开源
许可证
开源
适用场景
仿真
数据模态
RGB-D、Proprioception、Tactile、Language