HOI4D

开源

Tsinghua University / Peking University

HOI4D（4D Egocentric Human-Object Interaction）是清华大学与北京大学于 CVPR 2022 发布的大规模 4D 第一人称人-物交互数据集。

规模：240 万 RGB-D 第一人称视频帧、4,000+ 交互序列、800 个物体实例（16 类别，含刚体和铰接物体）、610 个不同室内场景。

采集方式：头戴式 Intel RealSense D455 + Kinect v2 采集，9 名参与者在自然室内环境中进行日常操作。

标注：逐帧全景分割、运动分割、3D 手部姿态、类别级物体 6-DoF 位姿（含铰接物体关节状态）、动作分割标签。

三大基准任务：
1. 4D 动态点云序列语义分割
2. 类别级物体位姿跟踪
3. 第一人称动作分割

协议：CC BY-NC-SA 4.0。

AFUN 将 HOI4D 作为人类第一人称（human egocentric）训练数据源，从中提取 2,165 个动作区间用于可供性学习。

机构

Tsinghua University / Peking University

规模

2.4M RGB-D 帧 + 4,000+ 序列 + 800 物体实例 + 16 类别

许可证

CC BY-NC-SA 4.0

机器人类型

通用

任务类型

人机交互 3D运动预测可供性分割

发布年份

2022

数据模态

RGB、深度、3D点云

🤖 人工采集（头戴设备，自然室内环境）✅ 半自动标注 + 人工核验🏠 100%真机📊 有数据划分

数据格式

存储格式PNG（RGB-D 帧）+ NPY（点云）+ JSON（标注）

数据规模~500GB（含点云序列）

压缩方式无

文件布局按 sequence 分目录；每 sequence 含 MP4 + JSON 标注

索引方式sequence_id → frame_number JSON 标注索引

格式版本MP4/H.264（RGB-D）+ JSON（标注）

sequence

frame

RGB-D

point_cloud

panoptic_segmentation

6D_object_pose

hand_pose

action_label

快速上手

加载数据

# HOI4D 通过官方 Instructions repo 加载
# git clone https://github.com/leolyliu/HOI4D-Instructions
import cv2, json
cap = cv2.VideoCapture('hoi4d_rgb.mp4')
ret, frame = cap.read()
with open('hoi4d_objpose.json') as f:
    pose = json.load(f)

依赖库

opencv-pythonnumpyjson

预处理说明

RGB-D 视频 + JSON 标注；2.4M 帧

数据内容

传感器规格

RealSense D455

Kinect v2

IMU

数据统计

场景数610 个室内场景（办公室、厨房、客厅、实验室等）

物体数800 个物体实例（16 类别：剪刀、抽屉、马克杯、笔记本电脑等）

任务数4D 点云语义分割、类别级物体位姿跟踪、第一人称动作分割

轨迹/片段数4,000+ 交互序列（2.4M 帧）

标注信息

全景分割运动分割3D 手部姿态类别级 6-DoF 位姿动作分割标签