论文解读 | ScanNet:室内场景的丰富注释3D重建

原创 | 文 BFT机器人 

图片

大型的、有标记的数据集的可用性是为了利用做有监督的深度学习方法的一个关键要求。但是在RGB-D场景理解的背景下,可用的数据非常少,通常是当前的数据集覆盖了一小范围的场景视图,并且具有有限的语义注释。

为了解决这个问题,本文介绍了一个ScanNet的大规模室内场景3D重建和语义分割数据集。该数据集包含1513个室内场景的2.5M视角,具有3D相机姿态、表面重建和语义分割的注释。并且为了收集这些数据,设计了一个易于使用和可伸缩的RGB-D捕获系统,其中包括自动表面重建和众包语义注释。实验结果表明使用这些数据有助于在几个三维场景理解任务上实现最先进的性能,表现在三维对象分类、语义体素标记和CAD模型检索几个方面。

背景

BACKDROP

随着RGB-D传感器的引入以来,3D几何捕获领域获得了广泛的关注,并开辟了广泛的新应用。在三维重建算法上已经有了大量的努力,但利用RGB-D数据进行的一般三维场景理解最近才开始流行起来。随着现代机器学习方法的快速发展,如神经网络模型,也大大促进了对语义理解的研究。

本文建立了一个来帮助初学者获得语义标记的场景3D模型。人们使用安装有深度摄像头的iPad上的一个应用程序来获取RGB-D视频,然后后台离线处理数据,并返回一个完整的语义标记的场景3D重建。确实开发这样一个框架的挑战是众多的,包括如何稳健地执行三维表面重建,以及如何众包语义标记。对这些问题的研究,并记录了在扩大RGB-D扫描收集(20人)和注释(500名人群工作者)方面的经验。

图片

研究

STUDY

RGB-D重建和语义注释框架的概述。左图:一个新手用户使用一个手持RGB-D设备与我们的扫描界面来扫描一个环境。中间:RGB-D序列被上传到一个处理服务器,该服务器生成三维表面网格重建及其表面分割。右图为发布语义注释任务进行众包,获得实例级对象类别注释和三维CAD模型对齐重建。使用ScanNet提供的数据对三维深度网络进行了训练,并测试了它们在几个场景理解任务上的性能,包括三维对象分类、语义体素标记和CAD模型检索。对于语义体素标记任务,本文引入了一种新的体积CNN架构。

图片

在校准时,本文使用RGB-D传感器需要解除深度数据的扭曲和深度和颜色数据的对齐。先前的研究工作主要集中在具有更精确设备的控制实验室条件上,以告知商品传感器的校准。然而这对于新手用户来说是不实用的。因此,用户只需要打印出一个棋盘图案,将它放在一个大的、平坦的表面上,并捕获一个从近距离观察表面的RGB-D序列。这个序列,以及一组查看棋盘格的红外线和彩色帧对,由用户上传作为校准的输入,我们的系统运行一个校准程序,以获得深度和颜色传感器的内在参数,以及深度到颜色的外部转换。

我们发现,这种校准程序易于用户,结果改善数据,从而提高重建质量。本文研究选择了捆绑融合(BundleFusion)系统,因为它是设计和评估类似的传感器设置,并提供实时速度,同时相当稳健的给定手持RGBD视频数据。在验证过程时候,当扫描上传到处理服务器并在无监督下运行时,将自动触发此重建过程。为了建立一个干净的快照来构建本文报道的ScanNet数据集,自动丢弃了较短、残差重建误差高或对齐帧比例低的扫描序列。然后我们手动检查和丢弃有明显失调的重建。

图片

结论

CONCLUSION

文中还讨论了如何在可扩展的流水线中进行3D表面重建和如何进行众包语义标注的问题,并介绍了使用ScanNet数据进行3D场景理解任务的最新技术和结果。文章中在可扩展的流水线中使用一种新的体积卷积神经网络架构,用于解决语义体素标注任务。结果表明,使用ScanNet数据可以获得比现有数据集更好的性能,这证明了ScanNet数据集的重要性和实用性,该数据集还包括纹理网格、密集的物体级别语义分割和对齐的CAD模型。3D模型是使用RGB-D捕捉系统重建的,其中包括自动表面重建和众包语义注释。

语义分割比任何先前的RGB-D数据集都要大一个数量级。模型使用估计的校准参数、相机姿态、3D表面重建、纹理网格、密集的物体级别语义分割和对齐的CAD模型进行注释。这使得ScanNet成为场景理解研究的宝贵资源。。此外还提供了新的RGB-D基准和改进的结果,这些结果可以用于3D对象分类、语义体素标注和CAD模型检索等场景理解任务。

作者 | ZZY

排版 | 春花

审核 | 猫

若您对该文章内容有任何疑问,请于我们联系,将及时回应。如果想要了解更多的前沿资讯,记得点赞关注哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/87739.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM知识点(二)

1、G1垃圾收集器 -XX:MaxGCPauseMillis10,G1的参数,表示在任意1s时间内,停顿时间不能超过10ms;G1将堆切分成很多小堆区(Region),每一个Region可以是Eden、Survivor或Old区;这些区在…

树状表格父节点选择 - 在Vue.js中实现仅选择父节点的树状表格功能

功能介绍 本文介绍了如何在Vue.js框架下实现一个树状表格,其中只支持选择父节点的复选框。通过这个功能,用户可以方便地选择表格中的父节点,而无需关心子节点的选择。代码示例和详细的实现步骤将展示如何使用Vue.js的相关特性和组件实现这个功…

线性代数(五) 线性空间

前言 《线性代数(三) 线性方程组&向量空间》我通过解线性方程组的方式去理解线性空间。此章从另一个角度去理解 空间是什么 大家较熟悉的:平面直角坐标系是最常见的二维空间 空间由无穷多个坐标点组成 每个坐标点就是一个向量 反过来,也可说&…

传统品牌如何通过3D虚拟数字人定制和动捕设备加速年轻化发展?

步入Z时代,年轻一代消费者的生活方式深受互联网技术和媒介环境影响,对新潮事物感兴趣,消费思维也相对前卫,品牌需要探索契合Z世代的消费观念,寻找新的链接拉近品牌与消费者的距离,而3D虚拟数字人定制可以帮…

c#在MVC Api(.net framework)当中使用Swagger,以及Demo下载

主要的步骤就是创建项目,通过nuget 添加Swashbuckle包,然后在SwaggerConfig当中进行相关的配置。 具体的步骤,可以参考下面的链接: https://www.cnblogs.com/94pm/p/8046580.htmlhttps://blog.csdn.net/xiaouncle/article/detail…

macOS 安装 Homebrew 详细过程

文章目录 macOS 安装 Homebrew 详细过程Homebrew 简介Homebrew 安装过程设置环境变量安装 Homebrew安装完成后续设置(重要)设置环境变量homebrew 镜像源设置macOS 安装 Homebrew 详细过程 本文讲解了如何使用中科大源安装 Homebrew 的安装过程,文章里面的所有步骤都是必要的,需…

ARM寄存器组

CM3 拥有通用寄存器 R0‐R15 以及一些特殊功能寄存器。 R0-R7,通用目的寄存器 R0-R7也被称为低组寄存器,所有指令可以访问它们,它们的字长为32位,复位后的初始值是不可预料的。 R8-R12,通用目的寄存器 R8-R12也被称…

【详解】文本检测OCR模型的评价指标

关于文本检测OCR模型的评价指标 前言:网上关于评价标准乱七八糟的,有关于单词的,有关于段落的,似乎没见过谁解释一下常见论文中常用的评价指标具体是怎么计算的,比如DBNet,比如RCNN,这似乎好像…

C语言的发展及特点

1. C语言的发展历程 C语言作为计算机编程领域的重要里程碑,其发展历程承载着无数开发者的智慧和创新。C语言诞生于20世纪70年代初,由计算机科学家Dennis Ritchie在贝尔实验室首次推出。当时,Ritchie的目标是为Unix操作系统开发一门能够更方便…

LiveGBS伴侣

【1】LiveGBS 简介 LiveGBS是一套支持国标(GB28181)流媒体服务软件。 国标无插件;提供用户管理及Web可视化页面管理; 提供设备状态管理,可实时查看设备是否掉线等信息; 实时流媒体处理,PS(TS)转ES&…

2023.8.28日论文阅读

文章目录 NestFuse: An Infrared and Visible Image Fusion Architecture based on Nest Connection and Spatial/Channel Attention Models(2020的论文)本文方法 LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images本文方法学习…

分析型CRM的优缺点有哪些?

CRM系统根据其功能和目标的不同,可以分为三种主要类型:运营型CRM、分析型CRM和协作型CRM。本文将进行分析型CRM系统的优缺点分析,帮助您对分析型CRM系统有更深的了解。 什么是分析型CRM系统? 例如Zoho CRM的分析型CRM系统是指通…