论文阅读《High-frequency Stereo Matching Network》

论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_High-Frequency_Stereo_Matching_Network_CVPR_2023_paper.pdf
源码地址: https://github.com/David-Zhao-1997/High-frequency-Stereo-Matching-Network


概述

   在立体匹配研究领域,当前的方法在估计视差图的细微特征方面表现不足,尤其是在对象的边缘性能方面。此外,弱纹理区域的混淆匹配和细小物体的错误匹配也是模型性能表现不佳的重要因素。在迭代式的方法中,现有的基于GRU的结构存在一定局限性,用于生成视差图更新的信息与GRU的隐藏状态信息耦合在一起,使得在隐藏状态中保持细微的细节变得困难。
  为了解决该问题,本文提出了 DLNR (Stereo Matching Network with Decouple LSTM and Normalization Refinement),改方法可以在迭代过程中保留更多的细节信息。同时,为了进一步提取高频的细节信息,本文提出了一个视差归一化细化模块,将视差值归一化为图像宽度上的视差比例,有效地减轻了模型跨域性能下降的问题。此外,为了克服传统resNet的特征提取瓶颈,本文引入了一个多尺度多层级的特征提取骨干网络,通过通道级自注意力机制来增强模型的特征提取能力。实验结果表明,本文在多个数据集上达到了最先进的水平。


模型架构

Channel-Attention Transformer extractor

   受到 Restormer 的启发,作者设计了一个多阶段、多尺度的通道注意力transformer特征提取结构用于提取像素长程依赖特征与高频细节特征,如图3所示:
在这里插入图片描述

高频细节特征获取

   文中采用 Pixel Unshuffle 来替代池化操作对图像进行下采样至原始大小的1/4,并扩展通道数,同时不丢失任何高频信息。原始图像的形状是 [ C , H ∗ r , W ∗ r ] [C, H * r, W * r] [C,Hr,Wr],经过Pixel Unshuffle后reshape为 [ C ∗ r 2 , H , W ] [C * r^2, H, W] [Cr2,H,W]。这样可以在降低图像分辨率的同时,保留图像中的高频细节信息。

通道注意力机制

   文中提出了CWSA模块(来源于Restromer中的MDTA)用于通道注意力,以减少原始通道注意力带来的计算量激增问题。

多尺度解耦LSTM正则化

   在每次迭代中,迭代单元结合特征提取器从多尺度和多阶段信息 F l F_l Fl F m F_m Fm F h F_h Fh,以及上一次迭代产生的隐藏状态 h i − 1 h_{i-1} hi1 C i − 1 C_{i-1} Ci1 和先前的视差图 D i − 1 D_{i-1} Di1,预测视差图的残差图 Δ D i \Delta D_i ΔDi

多尺度结构

  为了解决立体匹配中弱纹理区域的匹配难题,文中使用多尺度的迭代模块来充分利用1/4,1/8和1/16分辨率下的视图信息。每个子模块都与其余相邻的分辨率进行交互,低分辨率可以获得更大的感受野用于处理弱纹理区域的混淆匹配。高分辨率尺度可以提供更多的高频细节信息,为物体的边缘和角落提供更多细节。

解耦机制

  传统的GRU结构的隐藏层特征 h h h 用于预测视差残差图,同时用于GRU模块之间的状态转移,导致模型无法保留更多的细节信息。为此,文中引入一个新的隐藏特征 C C C,如图4所示。
在这里插入图片描述
  隐藏状态 h h h 用于通过视差头生成更新矩阵,而新引入的隐藏状态 C C C 仅用于在迭代之间传递信息。该设计将更新矩阵和隐藏状态解耦,可以在迭代过程中保留更多有效的语义信息。

视差归一化细化

   为了缓解模型在地分辨率下细化导致的高频细节信息丢失问题,文中引入一个视差细化模块,如图5所示:
在这里插入图片描述
  1/4尺度的视差图经过可学习的上采样模块上采样到原分辨率,继而将右视图根据视差图warp到左视图,用于计算误差图:
D f r = l e a r n e d U p s a m p l e ( D l r , u p M a s k ) I l ′ = w a r p ( I r , d i s p ) E l = I l ′ − I l (1) \begin{aligned} D^{fr}& =learnedUpsample(D^{lr},upMask) \\ I_{l}^{'}& =warp(I_r,disp) \\ E_{l}& =I_{l}^{'}-I_{l} \end{aligned}\tag{1} DfrIlEl=learnedUpsample(Dlr,upMask)=warp(Ir,disp)=IlIl(1)
  上采样后的视差图被缩放到0到1之间,且 D f r D^{fr} Dfr 的最小值通常为0。文中使用图像的宽度来作为最大视差值将所有像素点的视差值归一化:
D N o r m f r = D f r − m i n ( D f r ) w i d t h ( I l ) (2) D_{Norm}^{fr}=\frac{D^{fr}-min(D^{fr})}{width(I_l)}\tag{2} DNormfr=width(Il)Dfrmin(Dfr)(2)
  将归一化视差图 D N o r m f r D_{Norm}^{fr} DNormfr,误差图 E l E_{l} El 与左视图 I l I_l Il 送入视差细化模块中得到正则化后的视差图 D f r ′ D^{fr'} Dfr:
I e r r = C o n v 3 × 3 ( [ E l , I l ] ) D f r ′ = h o u r g l a s s ( [ I e r r , C o n v 3 × 3 ( D N o r m f r ) ] ) (3) \begin{aligned}I_{err}&=Conv_{3\times3}([E_l,I_l])\\D^{fr'}&=hourglass([I_{err},Conv_{3\times3}(D_{Norm}^{fr})])\end{aligned}\tag{3} IerrDfr=Conv3×3([El,Il])=hourglass([Ierr,Conv3×3(DNormfr)])(3)
最后根据归一化视差图计算原始视差图:
D r e f i n e d = D f r ′ × w i d t h ( I l ) + m i n ( D f r ′ ) (4) D_{refined}=D^{fr^{\prime}}\times width(I_l)+min(D^{fr^{\prime}})\tag{4} Drefined=Dfr×width(Il)+min(Dfr)(4)


损失函数

L = ∑ i = 1 n − 1 γ n − i L 1 + L r e f i n e , w h e r e γ = 0.9. L 1 = ∣ ∣ d g t − d i ∣ ∣ 1 L r e f i n e = ∣ ∣ d g t − d r e f i n e d ∣ ∣ 1 (5) \begin{aligned} \text{L}& =\sum_{i=1}^{n-1}\gamma^{n-i}L_1+L_{refine},where\gamma=0.9. \\ L_{1}& =\left|\left|d_{gt}-d_i\right|\right|_1 \\ L_{refine}& =\left|\left|d_{gt}-d_{refined}\right|\right|_1 \end{aligned}\tag{5} LL1Lrefine=i=1n1γniL1+Lrefine,whereγ=0.9.=dgtdi1=dgtdrefined1(5)


实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/267001.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity之OpenXR+XR Interaction Toolkit接入微软VR设备Windows Mixed Reality

前言 Windows Mixed Reality 是 Microsoft 用于增强和虚拟现实体验的VR设备,如下图所示: 在国内,它的使用率很低,一把都是国外使用,所以适配起来是相当费劲。 这台VR设备只能用于串流Windows,启动后,会自动连接Window的Mixed Reality程序,然后打开微软的增强现实门户…

前端框架(Front-end Framework)和库(Library)的区别

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

树莓派,opencv,Picamera2利用舵机云台追踪人脸

一、需要准备的硬件 Raspiberry 4b两个SG90 180度舵机(注意舵机的角度,最好是180度且带限位的,切勿选360度舵机)二自由度舵机云台(如下图)Raspiberry CSI 摄像头 组装后的效果: 二、项目目标…

VBA信息获取与处理:在EXCEL中随机函数的利用

《VBA信息获取与处理》教程(版权10178984)是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互…

点评项目——秒杀优化

2023.12.11 上一张的秒杀券下单还可以进行优化,先来回顾一下下单流程: 可以看出流程设计多次查询和操作数据库的操作,并且执行顺序是一个线程串行执行,执行性能是比较低的。 优化方案:我们将判断秒杀库存和校验一人一单…

剑指 Offer(第2版)面试题 23:链表中环的入口结点

剑指 Offer(第2版)面试题 23:链表中环的入口结点 剑指 Offer(第2版)面试题 23:链表中环的入口结点解法1:快慢指针 剑指 Offer(第2版)面试题 23:链表中环的入口…

STM32 CAN多节点组网项目实操 挖坑与填坑记录

摘要 CAN线性组网项目开发过程中遇到的数据丢包问题,并尝试解决的记录和推测分析。 关键词 CAN串联多节点通讯、CAN10节点通讯、CAN数据丢包、STM32 CAN 背景/项目介绍 概述: 开发了一个多节点线性组网采集数据的项目。 系统包含1个供电和数据网关板还有…

智能优化算法应用:基于混合蛙跳算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于混合蛙跳算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于混合蛙跳算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.混合蛙跳算法4.实验参数设定5.算法结果6.…

vite+vue3+ts+tsx+ant-design-vue项目框架搭建

参与公司项目开发一段时间了,项目用到了很多新的技术(vite,vue3,ts等等),但是框架都是别人搭好的,然后就想说如果是自己的话,会从零搭建一个吗,于是就有了这篇文章。 目录 一、涉及到的相关依…

day01、什么是数据库系统?

数据库系统介绍 1.实例化与抽象化数据库系统2.从用户角度看数据库管理系统的功能2.1 数据库定义功能2.2 数据库操纵2.3 数据库控制2.4 数据库维护功能2.5 数据库语言与高级语言 3.从系统:数据库管理系统应具有什么功能 来源于战德臣的B站网课 1.实例化与抽象化数据库…

【Docker】进阶之路:(十一)Docker存储

【Docker】进阶之路:(十一)Docker存储 Docker存储简介storage driverdata volumevolumebind mounttmpfs mount Docker提供了4种存储方式:默认存储、volume(数据卷)、bind mounts(绑定挂载)、tmpfsmount(仅在Linux环境中提供)。其中…

Linux——Web网站服务(二)

一、httpd服务的访问控制 1、客户机地址限制 通过Require配置项&#xff0c;可以根据主机的主机名或P地址来决定是否允许客户端访问。在 httpd服务器的主配置文件的<Location>&#xff0c;<Directory>、<Files>、<Limit>配置段中均可以使用Require配置…