← 返回博客

阿里发布首个具身大模型 Qwen-Robot 系列:Manip + Nav + World 三模型矩阵深度解析

2026-06-16 作者 Superdata RobotAI
Qwen-RobotVLAVLN世界模型具身智能阿里千问模型发布

2026 年 6 月 16 日,阿里巴巴正式发布千问具身智能大模型 Qwen-Robot 系列,涵盖 VLA 操作模型 Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 与世界模型 Qwen-RobotWorld 三大核心模型。这是千问大模型家族首个完整的具身智能模型矩阵,三个模型分别赋予机器人操作、导航、环境认知能力,可独立部署也可协同运转。

阿里云智能机器人业务部总经理付斌在发布会上表示:目标是为各类形态的机器人提供通用智能底座,从工业机械臂到服务人形机器人,从四足巡检到自动驾驶,都能通过这套模型获得感知、规划和执行能力。

模型矩阵总览

模型类型核心能力形象比喻
Qwen-RobotManipVLA(视觉-语言-动作)操作与抓取灵巧的手
Qwen-RobotNavVLN(视觉-语言导航)移动与寻路认路的脚
Qwen-RobotWorld世界模型物理规律推演会思考的大脑

一、Qwen-RobotManip — 操作 VLA 模型

技术架构

Qwen-RobotManip 基于千问 VLM 主干,在视觉编码器后接入扩散动作头(Diffusion Action Head),将视觉-语言理解映射为连续的机器人关节控制指令。扩散头的作用是从噪声逐步去噪生成平滑的动作轨迹,相比直接回归方式,天然抑制动作抖动。

训练数据

关键数字:超 38,000 小时开源数据预训练。这意味着 Qwen-RobotManip 没有依赖任何私有真机数据——全部训练语料来自公开可获取的数据集(Open X-Embodiment、DROID、ALOHA 等),这在 VLA 模型中相当罕见。Google RT-2 和 Physical Intelligence Pi0 均使用了大量内部私有数据,而 Qwen-RobotManip 是 100% 开源数据训练的。

评测成绩

RoboChallenge Table30 v1 真机多任务全球榜单中,Qwen-RobotManip 的两个版本包揽前两名:Lira 版本真实环境通用赛道成功率 45% 位列第一,Atlas 版本紧随其后。需要特别说明:这是真机评测(非仿真),30 个桌面操作任务涵盖取放、倾倒、开柜门、精密放置等,且评测环境与训练环境完全不同。

二、Qwen-RobotNav — 导航 VLN 模型

Qwen-RobotNav 基于 Qwen-VL 视觉语言模型构建,将五大导航任务统一至同一框架:指令跟随、目标导航、目标追踪、自动驾驶、多模态寻路。原生支持 LangChain、AutoGPT、MetaGPT 等多种智能体框架。发布会上展示了搭载 Qwen-RobotNav 的宇树 Go2 四足机器人完成寻物导航任务。

三、Qwen-RobotWorld — 世界模型

Qwen-RobotWorld 是三者中最具前沿性的模型。核心能力:给定当前观察和候选动作序列,预测执行该动作后的未来视觉状态和物理状态。三大应用场景:(1)训练数据生成——少量真机轨迹即可生成大量变体;(2)动作预推演——执行前先在脑内模拟,筛选最优方案;(3)异常预测——提前规避碰撞、滑落等风险。

在实际部署中,Qwen-RobotWorld 与 Qwen-RobotManip 构成「生成-评估-选择」双模型协同循环,显著提升高精度装配和易碎物体抓取的成功率。

四、Qwen-RobotClaw — 智能体框架

阿里还披露了内部项目 Qwen-RobotClaw——将上述三个模型作为底层工具调用的智能体框架。高层规划将复杂任务分解为子任务序列,根据子任务类型自动调度对应模型,操作失败时自动调用 World 模型分析原因并重试,支持具身问答——用自然语言询问「为什么刚才没抓住?」系统给出基于视觉和物理的分析。目前尚未开源。

五、行业影响分析

1. 开源数据路线的胜利

Qwen-RobotManip 用 100% 开源数据达到 RoboChallenge 真机榜单第一,直接证明:开源具身数据的质量和规模已经足以支撑顶级 VLA 模型的训练。这对依赖私有数据的企业是一记重击,对学术研究和小型团队则是巨大利好。

2. 与 NVIDIA GR00T 的对比

维度Qwen-RobotNVIDIA GR00T
操作模型Qwen-RobotManipGR00T N1/N1.5/N1.6
导航模型Qwen-RobotNav(无独立导航模型)
世界模型Qwen-RobotWorld(依赖 Isaac Sim 仿真)
数据策略100% 开源数据合成 + 真机 + 视频混合
硬件绑定无(模型即服务)NVIDIA GPU + Omniverse

3. 对具身数据生态的推动

38,000 小时开源数据训练意味着阿里团队已经对全球主流开源具身数据集做了系统性的整合和标准化处理。如果阿里将这套数据处理管线开源,将极大降低 VLA 模型训练的数据门槛——类似 ImageNet 之于计算机视觉的历史作用。

六、开放问题

  • 模型权重何时开源?发布会上未明确公布开源时间表和协议。
  • 38,000 小时具体用了哪些数据集?具体的数据集清单和配比尚未公开,对复现和验证非常重要。
  • 真机泛化的上限在哪里?45% 的成功率虽然是 SOTA,但距离实际部署(>90%)仍有很大距离。
  • Qwen-RobotClaw 会开源吗?智能体框架的开源将是生态建设的关键一步。

参考资料

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配