HOVA-500K
HKUST (Guangzhou)
HOVA-500K(Human-Object Visual Affordance 500K)是 HKUST(广州)于 2025 年发布的大规模视觉可供性数据集,伴随 GLOVER++ 模型。
规模:50 万 张 RGB 图像,覆盖 1,726 个物体类别和 675 个动作/动词类别,是目前最大规模的 visual affordance 数据集。
采集方式:从 Ego4D、EPIC-KITCHENS 等第一人称人类视频中检测手-物接触帧,通过 homography 反投影将接触点映射到无遮挡帧,实现毫米级交互点标注。
标注:point-level Gaussian heatmap(非区域掩码),以接触点为中心的高斯热力图,精度可达毫米级。
关联模型:GLOVER++(全局-局部可供性训练框架),仅 8.1M 可训练参数,在真实机器人零样本操作中达 73.3% 成功率。
AFUN 将 HOVA-500K 的 point-level 标注转换为分割掩码用于训练,并在其测试集上取得 SOTA。
机构
HKUST (Guangzhou)
规模
50 万张 RGB 图像 + 1,726 物体类别 + 675 动作类别
许可证
CC BY-NC 4.0
机器人类型
通用
任务类型
可供性分割 接触点预测 物体交互
发布年份
2025
数据模态
RGB
🤖 多源聚合(Ego4D/EPIC-KITCHENS 自动标注)✅ 自动标注(半自动化管线)🏠 100%真机📊 有数据划分
数据格式
存储格式PNG + JSON(热力图标注)
数据规模~120GB
压缩方式无
文件布局按 image 分文件;每 PNG 配 NPY 热力图
索引方式object_category + action_category 双索引
格式版本PNG(RGB)+ NPY(高斯热力图)
image
object_category
action_category
contact_heatmap(Gaussian keypoint)
快速上手
加载数据
# HOVA-500K 提供高斯热力图标注
import numpy as np
heatmap = np.load('hova_heatmap.npy') # 接触点高斯热力图
img = cv2.imread('hova_image.jpg')
# 来自 Ego4D/EPIC-KITCHENS 人类视频依赖库
预处理说明
50 万张图像;point-level 高斯热力图标注
数据内容
传感器规格
RGB
数据统计
场景数Ego4D/EPIC-KITCHENS 等第一人称视频中的日常生活场景
物体数1,726 类日常物体
任务数视觉可供性关键点预测、可供性分割、接触点预测
轨迹/片段数500K 图像