HOI4D
Tsinghua University / Peking University
HOI4D(4D Egocentric Human-Object Interaction)是清华大学与北京大学于 CVPR 2022 发布的大规模 4D 第一人称人-物交互数据集。
规模:240 万 RGB-D 第一人称视频帧、4,000+ 交互序列、800 个物体实例(16 类别,含刚体和铰接物体)、610 个不同室内场景。
采集方式:头戴式 Intel RealSense D455 + Kinect v2 采集,9 名参与者在自然室内环境中进行日常操作。
标注:逐帧全景分割、运动分割、3D 手部姿态、类别级物体 6-DoF 位姿(含铰接物体关节状态)、动作分割标签。
三大基准任务:
1. 4D 动态点云序列语义分割
2. 类别级物体位姿跟踪
3. 第一人称动作分割
协议:CC BY-NC-SA 4.0。
AFUN 将 HOI4D 作为人类第一人称(human egocentric)训练数据源,从中提取 2,165 个动作区间用于可供性学习。
机构
Tsinghua University / Peking University
规模
2.4M RGB-D 帧 + 4,000+ 序列 + 800 物体实例 + 16 类别
许可证
CC BY-NC-SA 4.0
机器人类型
通用
任务类型
人机交互 3D运动预测 可供性分割
发布年份
2022
数据模态
RGB、深度、3D点云
🤖 人工采集(头戴设备,自然室内环境)✅ 半自动标注 + 人工核验🏠 100%真机📊 有数据划分
数据格式
存储格式PNG(RGB-D 帧)+ NPY(点云)+ JSON(标注)
数据规模~500GB(含点云序列)
压缩方式无
文件布局按 sequence 分目录;每 sequence 含 MP4 + JSON 标注
索引方式sequence_id → frame_number JSON 标注索引
格式版本MP4/H.264(RGB-D)+ JSON(标注)
sequence
frame
RGB-D
point_cloud
panoptic_segmentation
6D_object_pose
hand_pose
action_label
快速上手
加载数据
# HOI4D 通过官方 Instructions repo 加载
# git clone https://github.com/leolyliu/HOI4D-Instructions
import cv2, json
cap = cv2.VideoCapture('hoi4d_rgb.mp4')
ret, frame = cap.read()
with open('hoi4d_objpose.json') as f:
pose = json.load(f)依赖库
预处理说明
RGB-D 视频 + JSON 标注;2.4M 帧
数据内容
传感器规格
RealSense D455
Kinect v2
IMU
数据统计
场景数610 个室内场景(办公室、厨房、客厅、实验室等)
物体数800 个物体实例(16 类别:剪刀、抽屉、马克杯、笔记本电脑等)
任务数4D 点云语义分割、类别级物体位姿跟踪、第一人称动作分割
轨迹/片段数4,000+ 交互序列(2.4M 帧)