🏆 EmbodiedBench 排行榜

模型在 EmbodiedBench 上的排名。分数越高 = 具身智能能力越强。

📏 指标：Success Rate 📐 单位：% 🏛️ UIUC / Northwestern / Purdue

#	模型	最佳套件得分	得分
1	Claude-3.5-Sonnet 4 个环境平均	Claude-3.5-Sonnet (—)	56%
展开全部 4 条结果 EB-Habitat 68%📄 EB-Navigation 66.7%📄 EB-ALFRED 64%📄 EB-Manipulation 25.4%📄
2	Claude-3.7-Sonnet 4 个环境平均	Claude-3.7-Sonnet (—)	51.2%
展开全部 4 条结果 EB-ALFRED 67.7%📄 EB-Habitat 58.7%📄 EB-Navigation 50%📄 EB-Manipulation 28.5%📄
3	GPT-4o 4 个环境平均	GPT-4o (—)	50.5%
展开全部 4 条结果 EB-Habitat 59%📄 EB-Navigation 57.7%📄 EB-ALFRED 56.3%📄 EB-Manipulation 28.9%📄
4	Gemini-2.0-Flash 4 个环境平均	Gemini-2.0-Flash (—)	43.6%
展开全部 4 条结果 EB-Navigation 63.3%📄 EB-ALFRED 52.3%📄 EB-Habitat 42.3%📄 EB-Manipulation 16.7%📄
5	Gemini-1.5-Pro 4 个环境平均	Gemini-1.5-Pro (—)	40.8%
展开全部 4 条结果 EB-ALFRED 62.3%📄 EB-Habitat 56.3%📄 EB-Navigation 23.3%📄 EB-Manipulation 21.1%📄
6	Qwen-VL-Max 4 个环境平均	Qwen-VL-Max (—)	38.7%
展开全部 4 条结果 EB-Navigation 50%📄 EB-Habitat 45.3%📄 EB-ALFRED 41.3%📄 EB-Manipulation 18%📄
7	Gemini-1.5-Flash 4 个环境平均	Gemini-1.5-Flash (—)	36.2%
展开全部 4 条结果 EB-Navigation 56.7%📄 EB-ALFRED 39.3%📄 EB-Habitat 39.3%📄 EB-Manipulation 9.6%📄
8	GPT-4o-mini 4 个环境平均	GPT-4o-mini (—)	23.3%
展开全部 4 条结果 EB-Habitat 32.7%📄 EB-Navigation 31.7%📄 EB-ALFRED 24%📄 EB-Manipulation 4.8%📄