SceneFun3D

开源

ETH Zürich / Google / TUM / Microsoft

SceneFun3D 是 ETH Zürich / Google / TUM / Microsoft 联合发表于 CVPR 2024 (Oral) 的精细 3D 场景功能理解数据集。

规模：710 个高精度 3D 室内场景（Faro 激光扫描仪采集，远超 RGB-D 重建精度），14,800+ 精细交互标注，3,000+ 自然语言任务描述，覆盖 9 个可供性类别（旋转、钩拉、推按等）。

独特之处：标注了传统 RGB-D 重建（ScanNet/Matterport3D）中不可见的细小功能元素——门把手、旋钮、按钮、开关、拨杆等。

三大基准任务：
1. Functionality Segmentation：3D 点云中分割功能元素并预测可供性标签
2. Task-Driven Affordance Grounding：根据自然语言任务描述定位功能元素
3. 3D Motion Estimation：预测交互所需的运动参数（运动类型、轴、原点）

协议：CC BY-NC-SA 4.0。

AFUN 使用 SceneFun3D 作为训练数据源和 3D 运动测试集（n=721），在 ADE/FDE/CIM 三个指标上全面超越 General Flow 等基线。

机构

ETH Zürich / Google / TUM / Microsoft

规模

710 个高精度 3D 室内场景 + 14.8K+ 交互标注 + 3,000+ 任务描述

许可证

CC BY-NC-SA 4.0

机器人类型

通用

任务类型

3D场景理解可供性分割 3D运动预测

发布年份

2024

数据模态

RGB、深度、3D点云、语言

🤖 人工采集（Faro 激光扫描 + ARKit RGB-D）✅ 人工标注💻 100%真机（真实室内场景）📊 有数据划分

数据格式

存储格式PLY（点云）+ JSON（标注）+ PNG（RGB-D）

数据规模~200GB（含 Faro 原始扫描）

压缩方式无

文件布局按 scene 分 PLY 点云 + JSON 任务描述

索引方式scene_id → task_description JSON 索引

格式版本PLY（激光点云）+ JSON（任务描述）

scene

functional_element

affordance_label

3D_motion_params（type + axis + origin）

task_description

快速上手

加载数据

import json, open3d as o3d
# Faro 激光扫描点云
pcd = o3d.io.read_point_cloud('scenefun3d_scene.ply')
with open('scenefun3d_task.json') as f:
    tasks = json.load(f)
# tasks 含功能元素位置 + 可供性标签 + 运动参数

依赖库

open3dnumpyjson

预处理说明

PLY 点云；710 场景；14.8K 交互标注

数据内容

传感器规格

Faro 激光扫描

RGB-D (ARKit)

数据统计

场景数710 个真实室内场景（含厨房、客厅、办公室、卧室等）

物体数门把手、旋钮、按钮、开关、抽屉拉手、水龙头等细小功能元素

任务数功能分割 + 任务驱动可供性定位 + 3D 运动参数估计

轨迹/片段数14.8K+ 交互标注 + 3,000+ 任务描述

标注信息

功能元素分割可供性标签（9类）3D 运动参数任务描述6-DoF 位姿