HOVA-500K

开源

HKUST (Guangzhou)

HOVA-500K（Human-Object Visual Affordance 500K）是 HKUST（广州）于 2025 年发布的大规模视觉可供性数据集，伴随 GLOVER++ 模型。

规模：50 万 张 RGB 图像，覆盖 1,726 个物体类别和 675 个动作/动词类别，是目前最大规模的 visual affordance 数据集。

采集方式：从 Ego4D、EPIC-KITCHENS 等第一人称人类视频中检测手-物接触帧，通过 homography 反投影将接触点映射到无遮挡帧，实现毫米级交互点标注。

标注：point-level Gaussian heatmap（非区域掩码），以接触点为中心的高斯热力图，精度可达毫米级。

关联模型：GLOVER++（全局-局部可供性训练框架），仅 8.1M 可训练参数，在真实机器人零样本操作中达 73.3% 成功率。

AFUN 将 HOVA-500K 的 point-level 标注转换为分割掩码用于训练，并在其测试集上取得 SOTA。

机构

HKUST (Guangzhou)

规模

50 万张 RGB 图像 + 1,726 物体类别 + 675 动作类别

许可证

CC BY-NC 4.0

机器人类型

通用

任务类型

可供性分割接触点预测物体交互

发布年份

2025

数据模态

RGB

🤖 多源聚合（Ego4D/EPIC-KITCHENS 自动标注）✅ 自动标注（半自动化管线）🏠 100%真机📊 有数据划分

数据格式

存储格式PNG + JSON（热力图标注）

数据规模~120GB

压缩方式无

文件布局按 image 分文件；每 PNG 配 NPY 热力图

索引方式object_category + action_category 双索引

格式版本PNG（RGB）+ NPY（高斯热力图）

image

object_category

action_category

contact_heatmap（Gaussian keypoint）

快速上手

加载数据

# HOVA-500K 提供高斯热力图标注
import numpy as np
heatmap = np.load('hova_heatmap.npy')  # 接触点高斯热力图
img = cv2.imread('hova_image.jpg')
# 来自 Ego4D/EPIC-KITCHENS 人类视频

依赖库

numpyopencv-python

预处理说明

50 万张图像；point-level 高斯热力图标注

数据内容

传感器规格

RGB

数据统计

场景数Ego4D/EPIC-KITCHENS 等第一人称视频中的日常生活场景

物体数1,726 类日常物体

任务数视觉可供性关键点预测、可供性分割、接触点预测

轨迹/片段数500K 图像

标注信息

接触点高斯热力图物体类别动作类别