SceneFun3D
ETH Zürich / Google / TUM / Microsoft
SceneFun3D 是 ETH Zürich / Google / TUM / Microsoft 联合发表于 CVPR 2024 (Oral) 的精细 3D 场景功能理解数据集。
规模:710 个高精度 3D 室内场景(Faro 激光扫描仪采集,远超 RGB-D 重建精度),14,800+ 精细交互标注,3,000+ 自然语言任务描述,覆盖 9 个可供性类别(旋转、钩拉、推按等)。
独特之处:标注了传统 RGB-D 重建(ScanNet/Matterport3D)中不可见的细小功能元素——门把手、旋钮、按钮、开关、拨杆等。
三大基准任务:
1. Functionality Segmentation:3D 点云中分割功能元素并预测可供性标签
2. Task-Driven Affordance Grounding:根据自然语言任务描述定位功能元素
3. 3D Motion Estimation:预测交互所需的运动参数(运动类型、轴、原点)
协议:CC BY-NC-SA 4.0。
AFUN 使用 SceneFun3D 作为训练数据源和 3D 运动测试集(n=721),在 ADE/FDE/CIM 三个指标上全面超越 General Flow 等基线。
机构
ETH Zürich / Google / TUM / Microsoft
规模
710 个高精度 3D 室内场景 + 14.8K+ 交互标注 + 3,000+ 任务描述
许可证
CC BY-NC-SA 4.0
机器人类型
通用
任务类型
3D场景理解 可供性分割 3D运动预测
发布年份
2024
数据模态
RGB、深度、3D点云、语言
🤖 人工采集(Faro 激光扫描 + ARKit RGB-D)✅ 人工标注💻 100%真机(真实室内场景)📊 有数据划分
数据格式
存储格式PLY(点云)+ JSON(标注)+ PNG(RGB-D)
数据规模~200GB(含 Faro 原始扫描)
压缩方式无
文件布局按 scene 分 PLY 点云 + JSON 任务描述
索引方式scene_id → task_description JSON 索引
格式版本PLY(激光点云)+ JSON(任务描述)
scene
functional_element
affordance_label
3D_motion_params(type + axis + origin)
task_description
快速上手
加载数据
import json, open3d as o3d
# Faro 激光扫描点云
pcd = o3d.io.read_point_cloud('scenefun3d_scene.ply')
with open('scenefun3d_task.json') as f:
tasks = json.load(f)
# tasks 含功能元素位置 + 可供性标签 + 运动参数依赖库
预处理说明
PLY 点云;710 场景;14.8K 交互标注
数据内容
传感器规格
Faro 激光扫描
RGB-D (ARKit)
数据统计
场景数710 个真实室内场景(含厨房、客厅、办公室、卧室等)
物体数门把手、旋钮、按钮、开关、抽屉拉手、水龙头等细小功能元素
任务数功能分割 + 任务驱动可供性定位 + 3D 运动参数估计
轨迹/片段数14.8K+ 交互标注 + 3,000+ 任务描述