ReasonAFF

开源

Shanghai AI Lab / ShanghaiTech

ReasonAFF 是上海 AI Lab 于 2025 年伴随 Affordance-R1 模型发布的推理级可供性数据集。

数据来源：基于 InstructPart 数据集，通过 GPT-4o 将原来的直接指令（如 'segment the lid'）改写为隐含推理问题（如 'Where would you place your hand if you wanted to open this trash can?'）。

规模：覆盖 48 个物体类别、30 个可供性类别，每条数据包含推理指令 + 可供性分割掩码 + 边界框 + 中心点。

核心创新：将可供性分割从纯视觉任务升级为视觉-语言推理任务，需要模型先理解任务语义再定位操作部位。

关联模型：Affordance-R1，采用纯强化学习（GRPO）训练，零样本泛化到 AGD20K/UMD 等 OOD 数据集。

AFUN 在 ReasonAFF 上取得 gIoU 67.41 / cIoU 62.72 的 SOTA 成绩。

机构

Shanghai AI Lab / ShanghaiTech

规模

48 物体类别 + 30 可供性类别 + GPT-4o 推理指令重写

许可证

CC BY 4.0

机器人类型

通用

任务类型

可供性分割语言推理

发布年份

2025

数据模态

RGB、语义分割、语言

🤖 基于 InstructPart 扩展✅ 自动标注（GPT-4o）+ 人工验证🏠 100%真机📊 有数据划分

数据格式

存储格式PNG + JSON（Q&A 格式）

数据规模~2GB

压缩方式无

文件布局按 image 分文件；每图配 JSON Q&A 标注

索引方式instruction-annotation JSON 配对索引

格式版本PNG（RGB）+ JSON（Q&A 标注）

image

reasoning_instruction（GPT-4o 改写）

affordance_mask

bbox

centroid

快速上手

加载数据

import json, cv2
img = cv2.imread('reasonaff_sample.jpg')
with open('reasonaff_qa.json') as f:
    qa = json.load(f)
# qa 含 reasoning_instruction + affordance_mask + bbox

依赖库

opencv-pythonnumpyjson

预处理说明

基于 InstructPart + GPT-4o 推理指令改写；Q&A 格式

数据内容

传感器规格

RGB

数据统计

场景数日常家庭场景（基于 InstructPart 图像 + HOI 图像）

物体数48 类日常物体（垃圾桶、微波炉、水龙头等）

任务数推理级可供性分割（Chain-of-Thought affordance reasoning + segmentation）

轨迹/片段数~2.4K 图像（含 GPT-4o 推理指令）

标注信息

推理指令（Q&A）可供性分割掩码边界框可供性中心点