3DOI
University of Michigan
3DOI(3D Object Interaction)是密歇根大学于 ICCV 2023 提出的 3D 物体交互理解数据集。
规模:约 1 万张 RGB 图像,来源涵盖互联网视频、第一人称视频及 3D 数据集渲染。
标注内容:交互查询点、可供性关键点、2D 边界框、关节类型(旋转/平移/固定)、可移动性、夹具标签。
核心任务:从单张 RGB 图像 + 查询点,预测可供性分割掩码和 3D 交互 affordance map。
测试拆分:3DOI(标准)和 3DOI Easy(简化)两个测试集。
AFUN 在 3DOI 分割任务上大幅超越所有基线。
机构
University of Michigan
规模
~10K 图像 + 密集可供性标注
许可证
CC BY 4.0
机器人类型
通用
任务类型
可供性分割 3D运动预测 物体交互
发布年份
2023
数据模态
RGB、3D点云
🤖 多源聚合✅ 人工标注🏠 100%真机📊 有数据划分
数据格式
存储格式PNG + JSON 标注
数据规模~5GB
压缩方式无
文件布局按 image 分文件;每图配 JSON 标注
索引方式image-annotation JSON 配对索引
格式版本PNG(RGB)+ JSON(标注)
image
query_point
affordance_mask
interaction_keypoint
articulation_type
快速上手
加载数据
import json, cv2
img = cv2.imread('3doi_image.jpg')
with open('3doi_annotation.json') as f:
ann = json.load(f)
# ann 含 interaction_keypoint, articulation_type, affordance_mask依赖库
预处理说明
单张 RGB + JSON 标注;~10K 图像
数据内容
传感器规格
RGB
数据统计
场景数互联网视频 + 第一人称视频 + 3D 数据集渲染
物体数多样化日常物品(含铰接和刚体)
任务数3D 物体交互点预测、可供性分割、物理属性识别
轨迹/片段数~10K 图像