VITRA
Microsoft Research
VITRA(Scalable Vision-Language-Action Model Pretraining with Human Activity Videos)是 Microsoft Research 于 2025 年发布的规模化 VLA 预训练数据集。
规模:基于 EPIC-KITCHENS 和 Ego4D 两大第一人称视频数据集,提取了约 110 万 个操作动作区间,累计约 130 万视角观测。
核心技术:为第一人称视频提供逐帧 SLAM 相机内参和外参,解决了第一人称视频中相机运动噪声的核心挑战——使轨迹可几何投影到 3D 空间。
标注:使用 VLM + SAM3 跟踪 → 深度反投影 → Bézier 曲线拟合的自动化管线,从人类操作视频中提取物体运动轨迹。
协议:CC BY 4.0。
AFUN 将 VITRA 作为最大的训练数据来源(human egocentric 类别),从中生成了 129,433 条有效 Bézier 样条运动曲线。
机构
Microsoft Research
规模
1,098,944 动作区间(基于 EPIC-KITCHENS + Ego4D 人类视频)
许可证
CC BY 4.0
机器人类型
通用
任务类型
操作 抓取 交互 可供性分割
发布年份
2025
数据模态
RGB、语言
🤖 多源聚合(EPIC-KITCHENS + Ego4D)✅ 自动标注(VLM + SAM3 跟踪 + 深度反投影)💻 100%真机(人类第一人称视频)📊 有数据划分
数据格式
存储格式MP4(源视频)+ JSON(SLAM 相机参数 + 标注)
数据规模基于 EPIC-KITCHENS + Ego4D(引用源数据集存储)
压缩方式无
文件布局基于 EPIC-KITCHENS/Ego4D 源文件;VITRA 标注为附加 JSON
索引方式EPIC-KITCHENS/Ego4D frame → VITRA interval 映射 JSON
格式版本MP4/H.264 + JSON(SLAM 位姿)
video_clip
action_interval
RGB_frames + SLAM_camera_poses + object_track + Bézier_curve
快速上手
加载数据
# VITRA 基于 EPIC-KITCHENS + Ego4D 构建
# 每个 interval 含 RGB + SLAM 相机位姿
import cv2, json
cap = cv2.VideoCapture('vitra_clip.mp4')
ret, frame = cap.read()
with open('vitra_slam_poses.json') as f:
poses = json.load(f)依赖库
预处理说明
MP4 + JSON;SLAM 相机位姿;110 万 interval
数据内容
传感器规格
RGB(第一人称)
SLAM 相机位姿
数据统计
场景数日常厨房(EPIC-KITCHENS)+ 多样化室内外(Ego4D)
物体数多样化日常物体(烹饪工具、家居用品等)
任务数人类操作视频 → VLA 预训练(物体跟踪 + 运动轨迹拟合)
轨迹/片段数1,098,944 动作区间(基于 3,024 条源视频)