VITRA

开源

Microsoft Research

VITRA（Scalable Vision-Language-Action Model Pretraining with Human Activity Videos）是 Microsoft Research 于 2025 年发布的规模化 VLA 预训练数据集。

规模：基于 EPIC-KITCHENS 和 Ego4D 两大第一人称视频数据集，提取了约 110 万 个操作动作区间，累计约 130 万视角观测。

核心技术：为第一人称视频提供逐帧 SLAM 相机内参和外参，解决了第一人称视频中相机运动噪声的核心挑战——使轨迹可几何投影到 3D 空间。

标注：使用 VLM + SAM3 跟踪 → 深度反投影 → Bézier 曲线拟合的自动化管线，从人类操作视频中提取物体运动轨迹。

协议：CC BY 4.0。

AFUN 将 VITRA 作为最大的训练数据来源（human egocentric 类别），从中生成了 129,433 条有效 Bézier 样条运动曲线。

机构

Microsoft Research

规模

1,098,944 动作区间（基于 EPIC-KITCHENS + Ego4D 人类视频）

许可证

CC BY 4.0

机器人类型

通用

任务类型

操作抓取交互可供性分割

发布年份

2025

数据模态

RGB、语言

🤖 多源聚合（EPIC-KITCHENS + Ego4D）✅ 自动标注（VLM + SAM3 跟踪 + 深度反投影）💻 100%真机（人类第一人称视频）📊 有数据划分

数据格式

存储格式MP4（源视频）+ JSON（SLAM 相机参数 + 标注）

数据规模基于 EPIC-KITCHENS + Ego4D（引用源数据集存储）

压缩方式无

文件布局基于 EPIC-KITCHENS/Ego4D 源文件；VITRA 标注为附加 JSON

索引方式EPIC-KITCHENS/Ego4D frame → VITRA interval 映射 JSON

格式版本MP4/H.264 + JSON（SLAM 位姿）

video_clip

action_interval

RGB_frames + SLAM_camera_poses + object_track + Bézier_curve

快速上手

加载数据

# VITRA 基于 EPIC-KITCHENS + Ego4D 构建
# 每个 interval 含 RGB + SLAM 相机位姿
import cv2, json
cap = cv2.VideoCapture('vitra_clip.mp4')
ret, frame = cap.read()
with open('vitra_slam_poses.json') as f:
    poses = json.load(f)

依赖库

opencv-pythonnumpyjson

预处理说明

MP4 + JSON；SLAM 相机位姿；110 万 interval

数据内容

传感器规格

RGB（第一人称）

SLAM 相机位姿

数据统计

场景数日常厨房（EPIC-KITCHENS）+ 多样化室内外（Ego4D）

物体数多样化日常物体（烹饪工具、家居用品等）

任务数人类操作视频 → VLA 预训练（物体跟踪 + 运动轨迹拟合）

轨迹/片段数1,098,944 动作区间（基于 3,024 条源视频）

标注信息

物体跟踪掩码3D 运动 Bézier 曲线SLAM 相机位姿接触帧索引