Voxel R-CNN:基于体素的高性能 3D 目标检测

论文地址:https://arxiv.org/abs/2012.15712
论文代码:https://github.com/djiajunustc/Voxel-R-CNN

论文背景

基于点的方法具有较高的检测精度,但基于点的方法通常效率较低,因为对于点集抽象来说,使用点表示来搜索最近邻的代价更高。
相比于基于点,更高效,基于体素的结构更适合于特征提取,但由于输入点云被划分为规则的网格,因此往往产生较低的准确性(体素化经常导致精确位置信息的丢失)。

基于点的方法一样准确,与基于Voxels的方法一样快速的方法?

首先,论文认为精确定位原始点云是不错的,但没有必要。基于体素的方法通常会对 bird-eye-view (BEV)表示执行目标检测,即使输入数据是 3D 体素。相比之下,基于点的方法通常依赖于抽象的点表示来恢复 3D 结构上下文,并基于点方向的特征进行进一步的细化。
通过仔细观察底层机制,发现现有的基于体素的方法的关键缺点在于,它们将3D特征体转换为BEV表示,而从未恢复3D结构上下文。
在这里插入图片描述
在这里插入图片描述SECOND:将体素化数据馈送到三维骨干网进行特征提取。 然后将3D特征体转换为BEV表示。 最后,利用一个二维主干网和一个区域建议网络(RPN)进行检测。

PV-RCNN:通过添加 Keypoints 分支来保存3D结构信息来扩展 SECOND。 引入体素集抽象(VSA)将多尺度三维体素特征集成到关键点中。 通过 ROI-grid-pooling 从关键点中进一步提取每个三维区域 proposals 的特征,进行 box refinement

SECOND 和 PV-RCNN 在检测性能(即准确性和效率)上存在较大差距:
1.SECOND 是 one-stage 方法,PV-RCNN 提取检测头进行 box refinement;
2.PV-RCNN 中的关键点保留了三维结构信息,SECOND 直接对BEV表示进行检测。
3.PV-RCNN 比 SECOND 慢得多;
3.SECOND AP 不如 PV-RCNN。

通过对比得到:
1.三维结构对于三维目标检测器具有重要的意义,因为单凭BEV表示不足以精确预测三维空间中的 bounding boxes;
2.点-体素特征交互耗时且影响检测器效率。

论文内容

在这里插入图片描述
基于体素的 3D 目标检测的两阶段框架。
a)一个 3D backbone;
b)一个 2D backbone,后面跟着 RPN;
c)一个 Voxel ROI pooling 和 一个用于 box refinement 的检测子网。

首先将原始点云划分为规则体素,并利用 3D backbone 进行特征提取。然后将稀疏的3D体素转化为BEV表示,在BEV表示上应用 2D backbone 和 RPN 生成 3D 区域建议。随后,使用 Voxel ROI pooling 提取 RoI 特征,并将这些特征输入检测子网进行 box refinement。

Voxel ROI pooling

在这里插入图片描述
为了直接从三维体素特征体集合空间上下文,论文提出了 Voxel ROI pooling。

Voxel Volumes as Points。 将稀疏 3D volumes 表示为一组非空体素中心点 { v i = ( x i , y i , z i ) } i = 1 N \{v_i=(x_i,y_i,z_i)\}^N_{i=1} {vi=(xiyizi)}i=1N及其对应的特征向量{φi}ni=1。 具体而言,利用指数、体素大小和点云边界计算体素中心的三维坐标。

体素查询
从 3D feature volumes 中查找相邻体素。 与无序点云相比,体素在量化空间中有规律地排列,便于邻居访问。 例如,体素查询的 26-neighbor voxels 可以通过在体素索引 ( i , j , k ) (i,j,k) (i,j,k)上添加一个三重偏移量 ( Δ i , Δ j , Δ k ) , Δ i , Δ j , Δ k ∈ { − 1 , 0 , 1 } (Δ_i,Δ_j,Δ_k),Δi,Δj,Δk∈\{-1,0,1\} (ΔiΔjΔk)ΔiΔjΔk{1,0,1} 来计算。 利用这一特性,论文设计了体素查询来有效地对体素进行分组。
首先将查询点量化为一个体素,然后通过 indices translation 转换获取相邻体素。在体素查询中利用曼哈顿距离,在一个距离阈值内采样多达 K K K 个体素。具体来说,体素 α = ( i α , j α , k α ) α=(i_α,j_α,k_α) α=(iαjαkα) β = ( i β , j β , k β ) β=(i_β,j_β,k_β) β=(iβjβkβ) 之间的曼哈顿距离 D ( α , β ) D(α,β) D(αβ) 计算如下: D m ( α , β ) = ∣ i α − i β ∣ + ∣ j α − j β ∣ + ∣ k α − k β ∣ . (1) \tag1 D_m(\alpha , \beta) = |i_\alpha - i_\beta|+|j_\alpha - j_\beta|+ |k_\alpha - k_\beta|. Dm(α,β)=iαiβ+jαjβ+kαkβ∣.(1)具体地,计算体素 α = ( i α , j α , k α ) α=(i_α,j_α,k_α) α=(iα,jα,kα) β = ( i β , j β , k β ) β=(i_β,j_β,k_β) β=(iβ,jβ,kβ) 之间的曼哈顿距离 D ( α , β ) D(α,β) D(α,β) 为:假设三维特征体中有 n n n 个非空体素,利用球查询来查找给定查询点的相邻体素,时间复杂度为 O ( n ) O(n) O(n)。然而,进行体素查询的时间复杂度只有 O ( K ) O(K) O(K),其中 K K K 为邻居数。邻居感知属性使得使用体素查询对邻居体素特征进行分组比使用球体查询对邻居点特征进行分组更有效

体素 ROI Pooling 层
首先将一个 region proposal 划分为 G × G × G G×G×G G×G×G 的规则 sub-voxel。 中心点作为相应子体素的网格点。 由于3D特征量非常稀疏(非空体素占小于3%的空间),不能直接利用最大池化每个 sub-voxel 的特征。取而代之的是,论文将相邻体素的特征集成到网格点中进行特征提取。具体来说,给定一个网格点 g i g_i gi,首先利用体素查询对一组相邻的体素进行分组 Γ i = { v i 1 , v i 2 , . . . , v i K } Γ_i = \{ v^1_i, v^2_ i,...,v^K_i\} Γi={vi1,vi2,...viK}。 然后,使用 PointNet 模块聚合相邻的体素特征: η i = max ⁡ k = 1 , 2 , . . . , K { Ψ ( [ v i k − g i ; ϕ i k ] ) } , (2) \tag2 \eta_i = \max_{k=1,2,...,K}\{ \Psi ([v_i^k - g_i;\phi_i^k]) \}, ηi=k=1,2,...,Kmax{Ψ([vikgi;ϕik])},(2)其中 v i − g i v_i-g_i vigi 表示相对坐标, ϕ i k \phi ^k_i ϕik v i k v^k_i vik 的体素特征, Ψ ( ⋅ ) \Psi(·) Ψ() 表示MLP。沿着通道进 max pooling 操作 max ⁡ ( ⋅ ) \max(·) max() 以获得聚合的特征向量 η i η_i ηi。特别是,利用体素 RoI Pooling 从 3D backbone network 的最后两个阶段的 3D 特征体素特征中提取体素特征。对于每个阶段,设置了两个曼哈顿距离阈值,以用多个尺度对体素进行分组。然后,将不同阶段、不同规模的特征聚合在一起,得到 RoI 特征。

加速局部聚合
即使使用论文提出的体素查询,在体素 RoI pooling 中的局部聚合操作(即 PointNet)模块仍然涉及很大的计算复杂度即使使用论文提出的体素查询。
在这里插入图片描述
如图所示,总共有 M M M 个网格点( M = r × G 3 M=r×G^3 M=r×G3,其中 r r r 为ROI个数, G G G为网格大小),每个网格点分组 K K K 个体素。 分组特征向量的维数为 C + 3 C+3 C+3,包括 C − d i m C-dim Cdim 体素特征和 3 − d i m 3-dim 3dim 相对坐标。 在应用FC层时,分组体素占用了大量的内存,并导致了较大的计算 FLOPs ( O ( M × K × ( C + 3 ) × C ′ ) ) (O(M×K×(C+3)×C^{'})) (O(M×K×(C+3)×C))

论文另外引入了一个加速的 PointNet 模块,以进一步降低 Voxel Query 的计算复杂度。
在这里插入图片描述
将体素特征和相对坐标分解为两个流。 给定权重为 W ∈ R C ′ , C + 3 W∈\R^{C^{'},C+3} WRC,C+3 的 FC 层,将其划分为 W F ∈ R C ′ , C W_F∈\R^{C^{'},C} WFRC,C W C ∈ R C ′ , 3 W_C∈\R^{C^{'},3} WCRC,3。 由于体素特征与网格点无关,在进行体素查询之前,在体素特征上应用了一个带 W F W_F WF 的 FC 层。 然后,在体素查询后,只将分组的相对坐标乘以 W C W_C WC 得到相对位置特征,并将其添加到分组的体素特征中。加速的 PointNet 模块的 Flop 为 O ( N × C × C ′ + M × K × 3 × C ′ ) O(N×C×C^{'}+M×K×3×C^{'}) O(N×C×C+M×K×3×C)。 由于分组体素的个数 ( M × K ) (M×K) (M×K) N N N 高出一个数量级,加速的 PointNet 模块比原来的的 PointNet 模块效率更高。

Backbone 和 RPN

3D backbone network 逐渐将体素化输入转换成 feature volumes。然后,将输出张量沿 Z 轴叠加生成 BEV 特征图。
2D backbone network 由两个部分组成:一个自顶向下的特征提取子网络和一个多尺度的特征融合子网络,该子网络由两个标准的3×3卷积层组成,该子网络对自顶向下的特征进行上采样和级联。
最后,将 2D backbone network 的输出与两个 1×1 卷积层进行卷积,生成3D RPN。

检测头

检测头以 ROI 特征作为输入进行 box refinement。 具体来说,共享的2层 MLP 首先将 ROI 特征转换为特征向量。 然后,将扁平化特征注入两个 sibling 分支:一个用于 bounding box 回归,另一个用于置信度预测。bounding box 回归分支预测从3D RPN 到地面真值 box 的残差,而置信度分支预测与 IOU 相关的置信度得分。

Training Objectives

RPN损失
将RPN的损失设计为分类损失和 box 回归损失的组合,如下: L R P N = 1 N f g [ ∑ i L c l s ( p i a , c i ∗ ) + L ( c i ∗ ≥ 1 ) ∑ i L r e g ( δ i a , t i ∗ ) ] (3) \tag3 \mathcal L_{RPN} = \frac{1}{N_{fg}}[\sum_i \mathcal L_{cls}(p_i^{a},c_i^{*})+ \mathbb L(c_i^{*} \geq 1)\sum_i \mathcal L_{reg}(\delta_{i}^{a},t_{i}^{*})] LRPN=Nfg1[iLcls(pia,ci)+L(ci1)iLreg(δia,ti)](3)其中, N f g N_{fg} Nfg 表示前景锚点的数量, p i a p^a_i pia δ i a δ^a_i δia 为分类分支和框回归分支的输出, c i ∗ c^∗_i ci t i ∗ t^∗_i ti 分别为分类标签和回归目标。 L ( c i ∗ ≥ 1 ) \mathbb L(c_i^{*} \geq 1) L(ci1) )表示仅使用前景锚点计算的回归损失。在这里,利用 Focal 损失进行分类,利用 Huber 损失进行 box regression。

检测头损失
分配给 confidence 分支的目标是与IOU相关的值: l i ∗ ( IoU i ) = { 0 IoU i < θ L , IoU i − θ L θ H − θ L θ L ≤ IoU i < θ H , 1 IoU i > θ H , (4) \tag4 l_i^* (\text{IoU}_i) = \begin{cases} 0 &\text{IoU}_i < \theta_L, \\ \frac{\text{IoU}_i - \theta_L}{\theta_H - \theta _ L} & \theta_L \leq \text{IoU}_i < \theta_H,\\ 1 &\text{IoU}_i > \theta_H, \end{cases} li(IoUi)= 0θHθLIoUiθL1IoUi<θL,θLIoUi<θH,IoUi>θH,(4) 其中, IoU i \text{IoU}_i IoUi 是第 i i i 个 proposal 和相应的地面真值 box 之间的 I o U IoU IoU θ H θ_H θH θ L θ_L θL 是前景和背景 I o U IoU IoU 阈值 。论文利用二元交叉熵损失进行置信度预测。 与RPN一样,Box回归分支也使用Huber损失。 探测头的损失计算如下: L h e a d = 1 N s [ ∑ i L c l s ( p i , l i ∗ (IoU i ) ) + L ( c i ∗ ≥ 1 ) ] (5) \tag5 \mathcal L_{head} = \frac{1}{N_s}[\sum_i \mathcal L_{cls}(p_i,l_i^*\text{(IoU}_i))+\mathbb L(c_i^{*} \geq 1)] Lhead=Ns1[iLcls(pi,li(IoUi))+L(ci1)](5) 其中 N s N_s Ns 是训练阶段的抽样区域 proposal 数, L ( IoU i ≥ θ r e g ) \mathbb L(\text{IoU}_i≥θ_{reg}) L(IoUiθreg) 表示只有 IoU > θ r e g \text{IoU}>θ_{reg} IoU>θreg 的区域 proposals 才会导致回归损失。

论文总结

论文提出了一种基于体素表示的新型 3D 目标检测器——Voxel R-CNN。以体素为输入,Voxel R-CNN首先从鸟瞰视图的特征表示中生成密集区域 proposals,然后利用 voxel RoI pooling 从3D体素特征中提取区域特征,进一步细化。通过充分利用体素表示,Voxel R-CNN在准确性和效率之间取得了平衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/105958.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

react中使用Modal.confirm数据不更新的问题解决

在使用Modal.confirm的时候今天发现了个疑惑的问题&#xff0c;为什么我明明从新set了数据而页面视图没有变化&#xff0c;查了一下官方文档找到了答案&#xff0c;解决了这个问题&#xff0c;特意在这里留下痕迹。 import { Button, Col, Form, Input, Modal, Radio, Row, Se…

开赛啦!第六届“中国法研杯”司法人工智能挑战赛精彩启幕

9月9日&#xff0c;第六届“中国法研杯”司法人工智能挑战赛&#xff08;简写为“LAIC2023”&#xff09;在福建厦门正式拉开帷幕&#xff0c;主办方中国司法大数据研究院&#xff08;以下简称“中国法研”&#xff09;以及厦门市思明区政府、厦门海丝办有关领导共同参加了启动…

Linux文件属性操作函数

access函数 chmod函数 chown函数 修改文件的所在组或者所有者 truncate函数

QT生成ICO文件

生成ICO文件 #include <QApplication> #include <QImage> #include <QIcon> #include <QFile> #include <QDebug> #include <QPixmap>int main(int argc, char* argv[]) {QApplication app(argc, argv);// 读取图片文件QImage image(&quo…

使用 Nginx 实现企业微信域名配置中的校验文件跳转

背景 在企业微信中配置业务域名时&#xff0c;通常需要在该域名的根路径下放置一个校验文件&#xff0c;以验证域名的所有权。然而&#xff0c;如果该域名是第三方的&#xff0c;你可能无法直接在根路径下放置文件。在这种情况下&#xff0c;你可以使用 Nginx 来实现校验文件的…

【微服务部署】四、Jenkins一键打包部署NodeJS(Vue)前端项目步骤详解

本文介绍使用Jenkins一键将NodeJS&#xff08;Vue&#xff09;前端项目打包并上传到生产环境服务器&#xff0c;这里使用的是直接打包静态页面&#xff0c;发送到远程服务器Nginx配置目录的方式&#xff0c;首先确保服务器环境配置好&#xff0c;安装Nginx&#xff0c;运行目录…

SQL6 查找学校是北大的学生信息

描述 题目&#xff1a;现在运营想要筛选出所有北京大学的学生进行用户调研&#xff0c;请你从用户信息表中取出满足条件的数据&#xff0c;结果返回设备id和学校。 示例&#xff1a;user_profile iddevice_idgenderageuniversityprovince12138male21北京大学Beijing23214male…

探究SpringWeb对于请求的处理过程

探究目的 在路径归一化被提出后&#xff0c;越来越多的未授权漏洞被爆出&#xff0c;而这些未授权多半跟spring自身对路由分发的处理机制有关。今天就来探究一下到底spring处理了什么导致了才导致鉴权被绕过这样严重的问题。 DispatcherServlet介绍 首先在分析spring对请求处…

服务器分析和监控

在当今数字化时代&#xff0c;对于网络流量的分析和监控变得越来越重要。本文将详细介绍如何利用HTTPS代理服务器来实现高效、安全且可靠的流量分析与监控功能&#xff0c;并提供具体操作步骤以及相关技巧。无论是企业需要优化网络性能还是个人用户&#xff0c;在遵循法规合规前…

C语言深入理解指针(非常详细)(五)

目录 回调函数qsort使用举例qsort函数的模拟实现sizeof和strlen的对比sizeofstrlensizeof和strlen的对比一道关于sizeof的题 回调函数 回调函数就是一个通过函数指针调用的函数 如果你把函数的指针&#xff08;地址&#xff09;作为参数传递给另一个函数&#xff0c;当这个指…

Python之线程(二)

一、线程同步和互斥锁 同一个资源,多人想用?排队啊! 现实生活中,我们会遇到“同一个资源,多个人都想使用”的问题。 比如:教室里,只有一台电脑,多个人都想使用。天然的解决办法就是,在电脑旁边,大家排队。前一人使用完后,后一人再使用。再比如,上厕所排队。 二、线…

保姆级-微信小程序开发教程

一&#xff0c;注册微信小程序 如果你还没有微信公众平台的账号&#xff0c;请先进入微信公众平台首页&#xff0c;点击 “立即注册” 按钮进行注册。注册的账号类型可以是订阅号、服务号、小程序以及企业微信&#xff0c;我们选择 “小程序” 即可。 接着填写账号信息&#x…