← 返回数据标准
Language-Conditioned Policy Learning Benchmark

CALVIN

评测基准

ETH Zurich

CALVIN Benchmark 是 ETH Zurich 提出的语言条件长序列机器人操作基准。

定义了一套标准化的任务定义格式、评估协议和数据划分(ABCD 四分割),测试策略在未见环境、未见指令、未见物体上的泛化能力。

基于 PyBullet 仿真,提供 20,000+ 条遥操作演示数据。

📋 规范性要求

任务定义
🔴 必须
任务必须以自然语言指令定义
每个 episode 包含一条语言指令,如 'open the drawer and place the block inside'
数据划分
🔴 必须
必须遵循 ABCD 四分割评估协议
A/B/C/D 分别对应不同环境/指令/物体的组合,测试跨域泛化能力
🟢 可选
可选使用 long-horizon 评估协议测试长序列能力
连续执行 5 个指令组成的序列,测试策略的长程规划能力
评估指标
🔴 必须
必须使用任务完成率(Success Rate)作为主要指标
按任务类型分别统计,同时报告平均完成率和每个任务的成功率
环境配置
🔴 必须
环境必须在 PyBullet 中运行,使用 Franka Panda 机器人
含桌面操作区域和抽屉、按钮、滑块等交互对象
观测格式
🟡 建议
建议提供 RGB 图像和 proprioceptive state
static camera 和 gripper camera 双视角,state 含 7-DoF 关节位置
发布组织
ETH Zurich
标准类型
评测基准
开放程度
● 完全开源
许可证
开源
适用场景
仿真
数据模态
RGB-D、Proprioception、Tactile、Language

相关链接

关联数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配