Benchmark 排行榜 | Superdata RobotAI

🏆

CALVIN

ETH Zurich

**CALVIN Benchmark** 是 ETH Zurich 提出的语言条件长序列机器人操作基准。定义了一套标准化的**任务定义格式、评估协议和数据划分**（ABCD 四分割），测试策略在未见环境、未见指令、未见物体上的泛化能力。...

评测基准 1 个训练数据集

🏆

LIBERO

Stanford / AI2

**LIBERO** 是 Stanford / AI2 提出的终生机器人学习基准。定义了 **130 个语言条件操作任务**，覆盖 **5 大维度泛化测试**（场景、物体、布局、任务组合、未见任务）。数据以 HDF5 格式发布，提供...

评测基准 1 个训练数据集

🏆

RLBench

牛津大学

**RLBench** 是牛津大学提出的机器人操作基准框架。在 CoppeliaSim 中定义了 **100 个带语言描述的操作任务**，支持程序化任务生成与变体控制。通过 task variation 维度（位置、姿态、颜色、形状...

评测基准 1 个训练数据集

🏆

SimplerEnv

Stanford / Google DeepMind

SimplerEnv 是用于评估机器人操作策略的仿真评测套件，包含 Fractal、Bridge 等多个真实环境的高保真仿真复现。GR00T N1 和 pi0 等模型使用 SimplerEnv 进行后训练评估。

评测基准 2 个训练数据集

🏆

FurnitureBench

UT Austin / NVIDIA Research

FurnitureBench 是真实机器人长序列家具装配基准，包含 9 款 IKEA 风格 3D 打印家具模型的装配任务。评估机器人在长序列操作中的抓取、插入、拧螺丝等精细操作能力。

评测基准 1 个训练数据集

🏆

EmbodiedBench

UIUC / Northwestern / Purdue

EmbodiedBench 是面向多模态大模型 (MLLM) 的综合具身评测基准。融合 4 大仿真环境（EB-ALFRED/EB-Habitat/EB-Navigation/EB-Manipulation），评估 6 大核心能力。注意：评测...

评测基准 1 个训练数据集

🏆 Benchmark 排行榜