3DOI

开源

University of Michigan

3DOI（3D Object Interaction）是密歇根大学于 ICCV 2023 提出的 3D 物体交互理解数据集。

规模：约 1 万张 RGB 图像，来源涵盖互联网视频、第一人称视频及 3D 数据集渲染。

标注内容：交互查询点、可供性关键点、2D 边界框、关节类型（旋转/平移/固定）、可移动性、夹具标签。

核心任务：从单张 RGB 图像 + 查询点，预测可供性分割掩码和 3D 交互 affordance map。

测试拆分：3DOI（标准）和 3DOI Easy（简化）两个测试集。

AFUN 在 3DOI 分割任务上大幅超越所有基线。

机构

University of Michigan

规模

~10K 图像 + 密集可供性标注

许可证

CC BY 4.0

机器人类型

通用

任务类型

可供性分割 3D运动预测物体交互

发布年份

2023

数据模态

RGB、3D点云

🤖 多源聚合✅ 人工标注🏠 100%真机📊 有数据划分

数据格式

存储格式PNG + JSON 标注

数据规模~5GB

压缩方式无

文件布局按 image 分文件；每图配 JSON 标注

索引方式image-annotation JSON 配对索引

格式版本PNG（RGB）+ JSON（标注）

image

query_point

affordance_mask

interaction_keypoint

articulation_type

快速上手

加载数据

import json, cv2
img = cv2.imread('3doi_image.jpg')
with open('3doi_annotation.json') as f:
    ann = json.load(f)
# ann 含 interaction_keypoint, articulation_type, affordance_mask

依赖库

opencv-pythonnumpyjson

预处理说明

单张 RGB + JSON 标注；~10K 图像

数据内容

传感器规格

RGB

数据统计

场景数互联网视频 + 第一人称视频 + 3D 数据集渲染

物体数多样化日常物品（含铰接和刚体）

任务数3D 物体交互点预测、可供性分割、物理属性识别

轨迹/片段数~10K 图像

标注信息

可供性关键点关节类型可移动性标签夹具标签2D 边界框