ELFNet: Evidential Local-global Fusion for Stereo Matching

论文地址:https://arxiv.org/pdf/2308.00728.pdf
源码地址:https://github.com/jimmy19991222/ELFNet


概述

  针对现有立体匹配模型面临可靠性和跨域泛化的问题,本文提出了Evidential Local-global Fusion(ELF)框架,该框架包含了不确信估计和置信度感知融合模块,并基于模糊不确定性和认知不确定性来预测视差图。此外,该模型还使用逆伽马分布来引导多层级融合与基于成本代价体和transformer结构的立体匹配信息融合。实验结果表明该框架在准确度和跨域泛化性能上达到了最先进的水平。


模型架构

在这里插入图片描述

Evidential Deep Learning

Uncertainty Loss

  对于立体匹配任务中的视差 d d d 可以视为一个正态分布 ( μ , σ 2 ) (\mu, \sigma^2) (μ,σ2),要对分布进行建模,我们假设 µ µ µ σ 2 σ^2 σ2 分别来自正态分布和逆伽马分布:
d ∼ N ( μ , σ 2 ) , μ ∼ N ( δ , σ 2 γ − 1 ) , σ 2 ∼ Γ − 1 ( α , β ) (1) d\sim\mathcal{N}(\mu,\sigma^2),\mu\sim\mathcal{N}(\delta,\sigma^2\gamma^{-1}),\sigma^2\sim\Gamma^{-1}(\alpha,\beta) \tag{1} dN(μ,σ2),μN(δ,σ2γ1),σ2Γ1(α,β)(1)
其中 Γ \Gamma Γ 是伽马函数, δ ∈ R , γ > 0 , α > 1 , β > 0 \delta\in\mathbb{R},\gamma~>~0, \alpha>1, \beta>0 δR,γ > 0,α>1,β>0. 不妨设均值和方差是相互独立的,后验分布 q ( μ , σ 2 ) = p ( μ , σ 2 ∣ d 1 , . . . , d N ) q(\mu,\sigma^2)\quad=p(\mu,\sigma^2|d_1,...,d_N) q(μ,σ2)=p(μ,σ2d1,...,dN) 可以表示为一个逆正态伽马分布 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β). 继而使用全局证据 Φ = 2 γ + α \Phi=2\gamma+\alpha Φ=2γ+α 来衡量预测结果的置信度,从而视差的模糊不确定性 a l al al 和认知不确定性 e p ep ep 可以表示为:
d = E ( μ ) = σ , a l = E ( σ 2 ) = β α − 1 , e p = Var ⁡ ( μ ) = β γ ( α − 1 ) , (2) \begin{aligned}d=\mathbb{E}(\mu)&=\sigma,al=\mathbb{E}(\sigma^2)=\frac{\beta}{\alpha-1},\\ep&=\operatorname{Var}(\mu)=\frac{\beta}{\gamma(\alpha-1)},\end{aligned}\tag{2} d=E(μ)ep=σ,al=E(σ2)=α1β,=Var(μ)=γ(α1)β,(2)
在训练过程中,使用 L N \mathcal{L}^{N} LN作为模型的负对数证据损失:
L N ( w ) = 1 2 log ⁡ ( π γ ) − α log ⁡ ( Ω ) + ( α + 1 2 ) log ⁡ ( ( y − δ ) 2 γ + Ω ) + log ⁡ ( Γ ( α ) Γ ( α + 1 2 ) ) (3) \begin{aligned} &\mathcal{L}^{N}(w)=\frac{1}{2}\log(\frac{\pi}{\gamma})-\alpha\log(\Omega) + (\alpha+\frac12)\log((y-\delta)^2\gamma+\Omega)+\log\left(\frac{\Gamma(\alpha)}{\Gamma(\alpha+\frac12)}\right) \end{aligned}\tag{3} LN(w)=21log(γπ)αlog(Ω)+(α+21)log((yδ)2γ+Ω)+log(Γ(α+21)Γ(α))(3)
其中 Ω = 2 β ( 1 + γ ) , w \Omega=2\beta(1+\gamma),w Ω=2β(1+γ),w 是一系列待估计的参数,为了抑制错误预测区域的证据,在损失函数中增加一项正则项:
L R ( w ) = ∣ d g t − E ( μ i ) ∣ ⋅ Φ = ∣ d g t − δ ∣ ⋅ ( 2 γ + α ) , (4) \mathcal{L}^R(w)=|d^{gt}-\mathbb{E}(\mu_i)|\cdot\Phi=|d^{gt}-\delta|\cdot(2\gamma+\alpha),\tag{4} LR(w)=dgtE(μi)Φ=dgtδ(2γ+α),(4)
为了将证实深度学习扩展到立体匹配领域中,我们将不确定损失函数 L U \mathcal{L}^U LU 扩展为所有像素的期望:
L U ( w ) = 1 N ∑ 0 N − 1 ( L i N ( w ) + τ L i R ( w ) ) , (5) \mathcal{L}^U(w)=\frac1N\sum_0^{N-1}\left(\mathcal{L}_i^N(w)+\tau\mathcal{L}_i^R(w)\right),\tag{5} LU(w)=N10N1(LiN(w)+τLiR(w)),(5)
其中 τ > 0 \tau>0 τ>0 控制着正则化的程度, N N N 代表所有像素的数量。

Uncertainty Estimation

Uncertainty estimation in cost-volume-based stereo
matching
基于代价体的立体匹配网络包含5个典型的结构:权值共享特征提取、代价体构建、代价体聚合、视差回归、视差细化。为了估计 N I G ( δ , γ , α , β ) \mathrm{NIG}(\delta,\gamma,\alpha,\beta) NIG(δ,γ,α,β) 的参数,将视差回归模块改进为具有多通道输出的可信回归模块,其余模块保持不变。利用两个3D卷积分支和一个Mish激活模块来得到分布参数,如图所示:
在这里插入图片描述
V δ , V γ , V α , V β = Split ⁡ ( V o u t , d i m = − 1 ) (6) V_\delta,V_\gamma,V_\alpha,V_\beta=\operatorname{Split}(V_{out},dim=-1)\tag{6} Vδ,Vγ,Vα,Vβ=Split(Vout,dim=1)(6)
p = Softmax ⁡ ( V δ ) (7) p=\operatorname{Softmax}(V_\delta)\tag{7} p=Softmax(Vδ)(7)
δ = ∑ k = 0 D k ⋅ p k , logit i = ∑ k = 0 D V i ⋅ p k (8) \delta=\sum_{k=0}^Dk\cdot p_k,\text{ logit}_i=\sum_{k=0}^DV_i\cdot p_k\tag{8} δ=k=0Dkpk, logiti=k=0DVipk(8)

Uncertainty estimation in transformer-based stereo
matching
在transformer-based的立体匹配模型中,采用自注意力与交叉注意力机制,通过最优传输模块来计算视差,并通过一个不确定head来生成参数。

Fusion Strategy based on Evidence

  文中采用了正态-逆伽马分布(MoNIG)的混合策略,可以同时进行内部证据融合和外部证据融合。具体而言,给定M组NIG分布的参数,MoNIG分布可以通过以下操作进行计算:
MoNIG ( δ , γ , α , β ) = NIG ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ NIG ( δ 2 , γ 2 , α 2 , β 2 ) ⊕ ⋯ ⊕ NIG ( δ M , γ M , α M , β M ) , (9) \begin{aligned}&\text{MoNIG}(\delta,\gamma,\alpha,\beta)=\text{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\\&\text{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2)\oplus\cdots\oplus\text{NIG}(\delta_M,\gamma_M,\alpha_M,\beta_M),\end{aligned}\tag{9} MoNIG(δ,γ,α,β)=NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2)NIG(δM,γM,αM,βM),(9)
其中 ⊕ \oplus 表示两个分布的和,表示为: N I G ( δ , γ , α , β ) ≜ N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ N I G ( δ 2 , γ 2 , α 2 , β 2 ) , \mathrm{NIG}(\delta,\gamma,\alpha,\beta)\triangleq\mathrm{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\mathrm{NIG}(\delta_2,\gamma_2,\alpha_2,\beta_2), NIG(δ,γ,α,β)NIG(δ1,γ1,α1,β1)NIG(δ2,γ2,α2,β2),其中
δ = ( γ 1 + γ 2 ) − 1 ( γ 1 δ 1 + γ 2 δ 2 ) , 7 v = γ 1 + γ 2 , α = α 1 + α 2 + 1 2 , β = β 1 + β 2 + 1 2 γ 1 ( δ 1 − δ ) 2 + 1 2 γ 2 ( δ 2 − δ ) 2 . (10) \begin{aligned} &\begin{aligned}\delta=(\gamma_1+\gamma_2)^{-1}(\gamma_1\delta_1+\gamma_2\delta_2),\end{aligned} \\ &\text{7} v=\gamma_{1}+\gamma_{2},\alpha=\alpha_{1}+\alpha_{2}+\frac{1}{2}, \\ &\beta=\beta_{1}+\beta_{2}+\frac12\gamma_{1}(\delta_{1}-\delta)^{2}+\frac12\gamma_{2}(\delta_{2}-\delta)^{2}. \end{aligned}\tag{10} δ=(γ1+γ2)1(γ1δ1+γ2δ2),7v=γ1+γ2,α=α1+α2+21,β=β1+β2+21γ1(δ1δ)2+21γ2(δ2δ)2.(10)
组合分布的参数 δ δ δ是由 γ γ γ加权的 δ 1 δ_1 δ1 δ 2 δ_2 δ2的总和,这衡量了期望的置信水平。最终的β不仅是 β 1 β_1 β1 β 2 β_2 β2的总和,还包括组合分布和每个单独分布之间的方差,因为它同时提供了关于偶然不确定性和认知不确定性的联系。

Intra Evidential Fusion of Cost-volume-based Stereo Matching

  首先构建了3个level的代价体,并使用三个代价聚合模块和可信度回归模块来得到三个level的NIG分布的参数,继而使用内部证据融合模块来将三个分布整合成一个最终的分布。 M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) = N I G ( δ 1 , γ 1 , α 1 , β 1 ) ⊕ ⋯ ⊕ N I G ( δ 3 , γ 3 , α 3 , β 3 ) . (11) \begin{aligned}\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})&=\mathsf{NIG}(\delta_1,\gamma_1,\alpha_1,\beta_1)\oplus\cdots\oplus\mathsf{NIG}(\delta_3,\gamma_3,\alpha_3,\beta_3).\end{aligned}\tag{11} MoNIG(δlocal,γlocal,αlocal,βlocal)=NIG(δ1,γ1,α1,β1)NIG(δ3,γ3,α3,β3).(11)
不确定性感知的融合策略使该框架具有整合多尺度特征可靠输出的能力。

Inter Evidential Fusion between Cost-volume based and Transformer-based Stereo Matching

  卷积的局部归纳偏置使基于成本体积的立体匹配模型易于建模局部特征,而基于transformer的模型则利用注意力机制的长距离依赖性来捕获全局信息。这两种方法的不同侧重点导致了它们在预测差异方面的差异,可能在某些情况下互补。文中使用基于不确定性的融合策略,通过MoNIG分布提供了一种计算效率高的机制来将两个预测合并为一个。
M o N I G ( δ , γ , α , β ) = M o N I G ( δ l o c a l , γ l o c a l , α l o c a l , β l o c a l ) ⊕ N I G ( δ g l o b a l , γ g l o b a l , α g l o b a l , β g l o b a l ) . \begin{aligned}\mathsf{MoNIG}(\delta,\gamma,\alpha,\beta)&=\mathsf{MoNIG}(\delta_{local},\gamma_{local},\alpha_{local},\beta_{local})\oplus\mathsf{NIG}(\delta_{global},\gamma_{global},\alpha_{global},\beta_{global}).\end{aligned} MoNIG(δ,γ,α,β)=MoNIG(δlocal,γlocal,αlocal,βlocal)NIG(δglobal,γglobal,αglobal,βglobal).


损失函数

  文中计算了局部输出、全局输出和最终组合输出的不确定性损失,分别表示为 L U ( w l o c a l ) L^U (wlocal) LU(wlocal) L U ( w g l o b a l ) L^U (wglobal) LU(wglobal) L U ( w ) L^U (w) LU(w)。在基于transformer的立体匹配模块中,还获得了注意力权重和遮挡概率 p o c c p_{occ} pocc。除了不确定性损失,文中还采用了与STTR 相同的损失函数,即相对响应损失 L R R ( w a t t n ) L^{RR}(wattn) LRR(wattn),以最大化对真实目标位置的注意力,并使用二元熵损失 L B E ( p o c c ) L^{BE}(pocc) LBE(pocc)来监督遮挡图。总体损失函数如下:
L = L U ( w l o c a l ) + λ 1 L U ( w g l o b a l ) + λ 2 L U ( w ) + λ 3 L R R ( w a t t n ) + λ 4 L B E ( p o c c ) , (13) \begin{aligned}&\mathcal{L}=\mathcal{L}^U(w_{local})+\lambda_1\mathcal{L}^U(w_{global})\\&+\lambda_2\mathcal{L}^U(w)+\lambda_3\mathcal{L}^{RR}(w_{attn})+\lambda_4\mathcal{L}^{BE}(p_{occ}),\end{aligned}\tag{13} L=LU(wlocal)+λ1LU(wglobal)+λ2LU(w)+λ3LRR(wattn)+λ4LBE(pocc),(13)


实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/81433.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AS中回退git历史版本并删除历史提交记录

当您想把某个版本后的代码删除,回滚到指定的版本。可以使用一下的方法。 一、打开AS中git历史提交窗口 二、选择需要回滚的版本选项,右键弹出菜单。选择Reset Current Branch to Here... 三、选择 Hard 选项 soft:将合并的更改应用到当前分支…

常用的数据可视化工具有哪些?要操作简单的

随着数据量的剧增,对分析效率和数据信息传递都带来了不小的挑战,于是数据可视化工具应运而生,通过直观形象的图表来展现、传递数据信息,提高数据分析报表的易读性。那么,常用的操作简单数据可视化工具有哪些&#xff1…

VMware虚拟机连不上网络

固定ip地址 进入网络配置文件 cd /etc/sysconfig/network-scripts 打开文件 vi ifcfg-ens33 编辑 BOOTPROTO设置为static,有3个值(decp、none、static) BOOTPROTO"static" 打开网络 ONBOOT"yes" 固定ip IPADDR1…

0基础学习VR全景平台篇 第88篇:智慧眼-成员管理

一、功能说明 成员管理,是指管理智慧眼项目的成员,拥有相关权限的人可以进行添加成员、分配成员角色、设置成员分类、修改成员以及删除成员五项操作。但是仅限于管理自己的下级成员,上级成员无权管理。 二、前台操作页面 登录智慧眼后台操…

一、MQ的基本概念

1、初识MQ MQ全称是Message Queue,消息队列,多用于系统之间进行异步通信。队列的概念数据结构中有详细介绍过,先进先出,消息队列就是存储消息的数据结构。 同步调用和异步调用两者之间的区别: 同步调用:发…

分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测

分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测 目录 分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 分类预测 | MATLAB实现S4VM半监督支持向量机二分类预测 程序设计 完整源码和数据获取方式: …

Python 密码破解指南:15~19

协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【OpenDocCN 饱和式翻译计划】,采用译后编辑(MTPE)流程来尽可能提升效率。 收割 SB 的人会被 SB 们封神,试图唤醒 SB 的人是 SB 眼中的 SB。——SB 第三定律 十五、…

学会Mybatis框架:一文掌握MyBatis与GitHub插件分页的完美结合【三.分页】

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于Mybatis的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.Mybatis分页 1. Mybatis自带分页 2…

单片机(二)使用位移 让灯亮

一:硬件电路 P2 口: P2.0~ P2.7 是这些 I0 口 LED 阳极接 电源 , P20 口 为低电平 可以让 LED灯 亮 二:软件实现部分 两种 ① 通过循环 来展示从左 到右 #include "reg52.h"#define LED_PORT P2 // 定义单片机的P2端…

Python土力学与基础工程计算.PDF-土的三项组成

5.3 Python求解 Python 求解代码如下: 1. # 定义已知参数 2. G_s 2.7 # 比重 3. w 0.2 # 含水量 4. e 0.6 # 孔隙比 5. gamma_w 9.81 # 水的重度 6. 7. # 根据公式计算饱和度 8. S_r G_s * w / e 9. print("饱和度为", S_r) 10. 11.…

OpenEuler 安装mysql

下载安装包 建议直接使用在openEuler官方编译移植过的mysql-5.7.21系列软件包 参考:操作系统迁移实战之在openEuler上部署MySQL数据库 | 数据库迁移方案 | openEuler社区官网 MySQL 5.7.21 移植指南(openEuler 20.03 LTS SP1) | 数据库移植…

Element Plus el-table 数据为空时自定义内容【默认为 No Data】

1. 通过 Table 属性设置 <div class"el-plus-table"><el-table empty-text"暂无数据" :data"tableData" style"width: 100%"><el-table-column prop"date" label"Date" width"180" /&g…