← 返回全部数据集

ReasonAFF

开源

Shanghai AI Lab / ShanghaiTech

ReasonAFF 是上海 AI Lab 于 2025 年伴随 Affordance-R1 模型发布的推理级可供性数据集。

数据来源:基于 InstructPart 数据集,通过 GPT-4o 将原来的直接指令(如 'segment the lid')改写为隐含推理问题(如 'Where would you place your hand if you wanted to open this trash can?')。

规模:覆盖 48 个物体类别、30 个可供性类别,每条数据包含推理指令 + 可供性分割掩码 + 边界框 + 中心点。

核心创新:将可供性分割从纯视觉任务升级为视觉-语言推理任务,需要模型先理解任务语义再定位操作部位。

关联模型:Affordance-R1,采用纯强化学习(GRPO)训练,零样本泛化到 AGD20K/UMD 等 OOD 数据集。

AFUN 在 ReasonAFF 上取得 gIoU 67.41 / cIoU 62.72 的 SOTA 成绩。

机构
Shanghai AI Lab / ShanghaiTech
规模
48 物体类别 + 30 可供性类别 + GPT-4o 推理指令重写
许可证
CC BY 4.0
机器人类型
通用
任务类型
可供性分割 语言推理
发布年份
2025
数据模态
RGB、语义分割、语言
🤖 基于 InstructPart 扩展✅ 自动标注(GPT-4o)+ 人工验证🏠 100%真机📊 有数据划分

数据格式

存储格式PNG + JSON(Q&A 格式)
数据规模~2GB
压缩方式
文件布局按 image 分文件;每图配 JSON Q&A 标注
索引方式instruction-annotation JSON 配对索引
格式版本PNG(RGB)+ JSON(Q&A 标注)
image
reasoning_instruction(GPT-4o 改写)
affordance_mask
bbox
centroid

快速上手

加载数据

import json, cv2
img = cv2.imread('reasonaff_sample.jpg')
with open('reasonaff_qa.json') as f:
    qa = json.load(f)
# qa 含 reasoning_instruction + affordance_mask + bbox

依赖库

opencv-pythonnumpyjson

预处理说明

基于 InstructPart + GPT-4o 推理指令改写;Q&A 格式

数据内容

传感器规格

RGB

数据统计

场景数日常家庭场景(基于 InstructPart 图像 + HOI 图像)
物体数48 类日常物体(垃圾桶、微波炉、水龙头等)
任务数推理级可供性分割(Chain-of-Thought affordance reasoning + segmentation)
轨迹/片段数~2.4K 图像(含 GPT-4o 推理指令)

标注信息

推理指令(Q&A)可供性分割掩码边界框可供性中心点

相关链接

相关数据集

讨论

AI 助手
输入需求,AI 帮你在 58 个数据集、19 个标准、18 个工具中智能匹配