🏆 Benchmark 排行榜

按标准 benchmark 上的模型性能对比训练数据集。分数越高 = 训练数据越有效。

共 6 个评测基准,7 个训练数据集参与对比
🏆
CALVIN
ETH Zurich
**CALVIN Benchmark** 是 ETH Zurich 提出的语言条件长序列机器人操作基准。 定义了一套标准化的**任务定义格式、评估协议和数据划分**(ABCD 四分割),测试策略在未见环境、未见指令、未见物体上的泛化能力。...
🏆
LIBERO
Stanford / AI2
**LIBERO** 是 Stanford / AI2 提出的终生机器人学习基准。 定义了 **130 个语言条件操作任务**,覆盖 **5 大维度泛化测试**(场景、物体、布局、任务组合、未见任务)。 数据以 HDF5 格式发布,提供...
🏆
RLBench
牛津大学
**RLBench** 是牛津大学提出的机器人操作基准框架。 在 CoppeliaSim 中定义了 **100 个带语言描述的操作任务**,支持程序化任务生成与变体控制。 通过 task variation 维度(位置、姿态、颜色、形状...
🏆
SimplerEnv
Stanford / Google DeepMind
SimplerEnv 是用于评估机器人操作策略的仿真评测套件,包含 Fractal、Bridge 等多个真实环境的高保真仿真复现。GR00T N1 和 pi0 等模型使用 SimplerEnv 进行后训练评估。
🏆
FurnitureBench
UT Austin / NVIDIA Research
FurnitureBench 是真实机器人长序列家具装配基准,包含 9 款 IKEA 风格 3D 打印家具模型的装配任务。评估机器人在长序列操作中的抓取、插入、拧螺丝等精细操作能力。
🏆
EmbodiedBench
UIUC / Northwestern / Purdue
EmbodiedBench 是面向多模态大模型 (MLLM) 的综合具身评测基准。融合 4 大仿真环境(EB-ALFRED/EB-Habitat/EB-Navigation/EB-Manipulation),评估 6 大核心能力。注意:评测...
AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配