CALVIN

评测基准

ETH Zurich

CALVIN Benchmark 是 ETH Zurich 提出的语言条件长序列机器人操作基准。

定义了一套标准化的任务定义格式、评估协议和数据划分（ABCD 四分割），测试策略在未见环境、未见指令、未见物体上的泛化能力。

基于 PyBullet 仿真，提供 20,000+ 条遥操作演示数据。

📋 规范性要求

任务定义

🔴 必须

任务必须以自然语言指令定义

每个 episode 包含一条语言指令，如 'open the drawer and place the block inside'

数据划分

🔴 必须

必须遵循 ABCD 四分割评估协议

A/B/C/D 分别对应不同环境/指令/物体的组合，测试跨域泛化能力

🟢 可选

可选使用 long-horizon 评估协议测试长序列能力

连续执行 5 个指令组成的序列，测试策略的长程规划能力

评估指标

🔴 必须

必须使用任务完成率（Success Rate）作为主要指标

按任务类型分别统计，同时报告平均完成率和每个任务的成功率

环境配置

🔴 必须

环境必须在 PyBullet 中运行，使用 Franka Panda 机器人

含桌面操作区域和抽屉、按钮、滑块等交互对象

观测格式

🟡 建议

建议提供 RGB 图像和 proprioceptive state

static camera 和 gripper camera 双视角，state 含 7-DoF 关节位置

发布组织

ETH Zurich

标准类型

评测基准

开放程度

● 完全开源

许可证

开源

适用场景

仿真

数据模态

RGB-D、Proprioception、Tactile、Language