← 返回全部数据集

HOVA-500K

开源

HKUST (Guangzhou)

HOVA-500K(Human-Object Visual Affordance 500K)是 HKUST(广州)于 2025 年发布的大规模视觉可供性数据集,伴随 GLOVER++ 模型。

规模50 万 张 RGB 图像,覆盖 1,726 个物体类别和 675 个动作/动词类别,是目前最大规模的 visual affordance 数据集。

采集方式:从 Ego4D、EPIC-KITCHENS 等第一人称人类视频中检测手-物接触帧,通过 homography 反投影将接触点映射到无遮挡帧,实现毫米级交互点标注。

标注:point-level Gaussian heatmap(非区域掩码),以接触点为中心的高斯热力图,精度可达毫米级。

关联模型:GLOVER++(全局-局部可供性训练框架),仅 8.1M 可训练参数,在真实机器人零样本操作中达 73.3% 成功率。

AFUN 将 HOVA-500K 的 point-level 标注转换为分割掩码用于训练,并在其测试集上取得 SOTA。

机构
HKUST (Guangzhou)
规模
50 万张 RGB 图像 + 1,726 物体类别 + 675 动作类别
许可证
CC BY-NC 4.0
机器人类型
通用
任务类型
可供性分割 接触点预测 物体交互
发布年份
2025
数据模态
RGB
🤖 多源聚合(Ego4D/EPIC-KITCHENS 自动标注)✅ 自动标注(半自动化管线)🏠 100%真机📊 有数据划分

数据格式

存储格式PNG + JSON(热力图标注)
数据规模~120GB
压缩方式
文件布局按 image 分文件;每 PNG 配 NPY 热力图
索引方式object_category + action_category 双索引
格式版本PNG(RGB)+ NPY(高斯热力图)
image
object_category
action_category
contact_heatmap(Gaussian keypoint)

快速上手

加载数据

# HOVA-500K 提供高斯热力图标注
import numpy as np
heatmap = np.load('hova_heatmap.npy')  # 接触点高斯热力图
img = cv2.imread('hova_image.jpg')
# 来自 Ego4D/EPIC-KITCHENS 人类视频

依赖库

numpyopencv-python

预处理说明

50 万张图像;point-level 高斯热力图标注

数据内容

传感器规格

RGB

数据统计

场景数Ego4D/EPIC-KITCHENS 等第一人称视频中的日常生活场景
物体数1,726 类日常物体
任务数视觉可供性关键点预测、可供性分割、接触点预测
轨迹/片段数500K 图像

标注信息

接触点高斯热力图物体类别动作类别

相关链接

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配