【每日论文阅读】单目深度估计 近期进展

红外场景单目深度估计的难点

  • 缺乏准确的深度参考标准:红外场景下的深度估计通常需要依赖于大量的输入图像和对应的深度值作为训练的约束。然而,获取准确的深度参考标准是一个挑战,目前常用的方法是使用红外传感器(如Kinect)或激光雷达,但它们的精度有限或价格昂贵。
  • 多尺度信息的处理:红外场景中存在着不同尺度的物体,而不同尺度的物体对应的深度信息也不同。因此,在单目深度估计中,如何有效地处理多尺度信息是一个难点。一种常见的方法是使用多尺度网络,将局部和全局信息结合起来进行深度估计
  • 语义信息的利用:在红外场景中,具有相似语义信息的物体通常具有相似的深度信息。因此,如何利用语义信息来提高深度估计的准确性也是一个难点。一种方法是将深度预测视为分类问题,将不同远近的物体视为不同的分类,并通过条件概率建模来估计深度。
  • 单目视频序列中的深度估计:在红外场景中,通过单目视频序列来估计特定目标之间的深度信息也是一个挑战。这涉及到对视频序列中的运动和视差进行建模,以获得更准确的深度估计结果
  • 纹理缺失问题:使用深度学习方法可以学习红外图像中的纹理特征,并将其应用于深度估计算法中。通过训练一个深度学习模型来学习红外图像中的纹理特征,可以提高对纹理缺失区域的深度估计准确性。

近期论文(2023.12以来)

MGDepth:动态场景中自监督单目深度的运动引导成本量

题目:

摘要:尽管自监督单目深度估计取得了进步,但由于依赖于静态世界的假设,动态场景中仍然存在挑战。在本文中,我们提出了 MGDepth,一种运动引导成本体积深度网络,以实现动态物体和静态背景的精确深度估计,同时保持计算效率。为了解决动态内容带来的挑战,我们结合光流和粗单目深度来创建一个新颖的静态参考框架。然后利用该框架与目标框架协作构建运动引导成本量。此外,为了提高网络结构的准确性和弹性,我们引入了基于注意力的深度网络架构,以有效地集成来自不同分辨率的特征图的信息。与计算成本相似的方法相比,MGDepth 在 KITTI-2015 数据集上实现自监督单目深度估计的均方根误差显着降低了约 7%。

【效果好】重新利用基于扩散的图像生成器进行单目深度估计

题目:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
作者:
摘要:单目深度估计是一项基本的计算机视觉任务。从单个图像中恢复 3D 深度在几何上是不适定的,并且需要场景理解,因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器令人印象深刻的进步反映了模型容量的增长,从相对适中的 CNN 到大型 Transformer 架构。尽管如此,单目深度估计器在面对内容和布局不熟悉的图像时往往会遇到困难,因为他们对视觉世界的了解受到训练期间看到的数据的限制,并且受到零样本泛化到新领域的挑战。这促使我们探索最近的生成扩散模型中捕获的广泛先验是否可以实现更好、更通用的深度估计。我们介绍了 Marigold,一种仿射不变单目深度估计方法,该方法源自稳定扩散并保留了其丰富的先验知识。仅使用合成训练数据就可以在几天内在单个 GPU 上对估计器进行微调。它在各种数据集上提供最先进的性能,包括在特定情况下提高 20% 以上的性能
连接:https://marigoldmonodepth.github.io/
在这里插入图片描述

相机高度不变:无监督单目尺度感知道路场景深度估计

题目:

摘要:单目深度估计器要么需要通过辅助传感器进行明确的尺度监督,要么会受到尺度模糊的影响,这使得它们难以在下游应用中部署。比例的一个可能来源是场景中发现的对象的大小,但不准确的定位使它们难以利用。在本文中,我们介绍了一种新颖的尺度感知单目深度估计方法,称为 StableCamH,不需要任何辅助传感器或监督。关键思想是利用场景中物体高度的先验知识,但将高度线索聚合成道路视频序列中所有帧共有的单个不变度量,即摄像机高度。通过将单目深度估计公式化为相机高度优化,我们实现了稳健且准确的无监督端到端训练。为了实现 StableCamH,我们设计了一种新颖的基于学习的尺寸先验,可以直接将汽车外观转换为其尺寸。在 KITTI 和 Cityscapes 上进行的大量实验表明了 StableCamH 的有效性、与相关方法相比其最先进的准确性及其普适性。StableCamH 的训练框架可用于任何单目深度估计方法,并有望成为进一步工作的基本构建块。

训练单目深度估计模型中NaN散度分析

题目:训练单目深度估计模型中NaN散度分析
作者:POSTECH
摘要:深度学习的最新进展促进了高精度单目深度估计模型的开发。然而,在训练单目深度估计网络时,从业者和研究人员观察到不是数字(NaN)损失,这会破坏梯度下降优化。尽管一些从业者报告了 NaN 损失的随机且神秘的发生,这困扰了训练,但文献中并未讨论其根本原因。本研究对单目深度估计网络训练过程中的 NaN 损失进行了深入分析,发现了导致 NaN 损失的三类漏洞:1)使用平方根损失,导致梯度不稳定;2) log-sigmoid 函数,存在数值稳定性问题;3) 某些方差实现会产生不正确的计算。此外,对于每个漏洞,都证明了 NaN 丢失的发生,并提出了防止 NaN 丢失的实用指南。实验表明,遵循我们的指南可以提高单目深度估计的优化稳定性和性能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

题目:用于单目红外图像深度估计的离散卷积 CRF 网络
作者:
摘要:从单目红外图像预测场景的深度在理解三维结构中起着至关重要的作用,是机器学习和计算机视觉中具有挑战性的任务之一。考虑到红外图像中缺乏纹理和颜色信息,提出了一种新颖的离散卷积条件随机场网络用于深度估计。所提出的方法继承了条件随机场和深度学习的几个优点。首先,通过深度架构自动提取和优化成对特征。其次,将基于单目图像的深度回归转换为多类分类,其中损失函数中考虑不同深度级别的顺序信息。我们的实验表明,这种转换实现了更高的精度和更快的转换。第三,为了获得细粒度的级别细节,我们进一步提出了一种多尺度离散卷积条件随机场网络,该网络计算不同空间级别上离散条件随机场的成对特征。对红外图像数据集 NUSTMS 的大量实验表明,所提出的方法优于其他深度估计方法。具体来说,对于所提出的方法,平均相对误差为0.181,平均log10误差为0.072,阈值(t = 1.25 3)的准确度为95.3%。
连接:

MonoProb:具有可解释不确定性的自监督单目深度估计

题目:
作者:
摘要:自监督单目深度估计方法旨在用于关键应用,例如用于环境分析的自动驾驶车辆。为了避免这些方法的潜在缺陷,预测置信度的量化对于指导依赖深度估计的决策系统至关重要。在本文中,我们提出了 MonoProb,一种新的无监督单目深度估计方法,它返回可解释的不确定性,这意味着不确定性反映了网络在深度预测中的预期误差。我们重新思考用于训练无监督单目深度模型的立体或运动结构范例作为概率问题。在单次前向传递推理中,该模型提供深度预测及其置信度测量,而不会增加推理时间。然后,我们通过一种新颖的自蒸馏损失来提高深度和不确定性方面的表现,学生受到伪地面事实的监督,该伪地面事实是教师深度输出的概率分布。为了量化模型的性能,我们设计了新的指标,与传统指标不同,它衡量不确定性预测的绝对性能。我们的实验强调了我们的方法在标准深度和不确定性指标以及我们定制的指标上所取得的增强。
连接:https://github.com/CEA-LIST/MonoProb

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/320876.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

antv/x6_2.0学习使用(二、画布)

画布 一. 创建容器 在页面中创建一个 div 标签&#xff0c;用来容纳画布 <div id"container"></div>画布常用配置信息 const graph new Graph({container: graphRef.value, // 画布容器width: 800, // 画布宽度&#xff0c;默认使用容器宽度height:…

看板表格样式,去掉element表格背景

<div class"ml-20"><el-input v-model.trim"queryParams.wipOrderNo" size"small" clearable style"width:150px" placeholder"请输入工单号" /><el-select class"ml-20" v-model"queryParam…

QT的坐标系统,回收机制、菜单栏,工具栏,状态栏,对话框及资源文件

QT的坐标系统&#xff0c;回收机制、菜单栏&#xff0c;工具栏&#xff0c;状态栏&#xff0c;对话框及资源文件 文章目录 QT的坐标系统&#xff0c;回收机制、菜单栏&#xff0c;工具栏&#xff0c;状态栏&#xff0c;对话框及资源文件1、QT的坐标系统&#xff1f;2、对象模型…

C#: 和时间相关,延时、获取系统时间、时间格式转换、定时器 等

说明&#xff1a;本文记录C# 和时间相关&#xff0c;延时、获取系统时间、时间格式转换、定时器 等&#xff0c;应用和代码。 1.延时函数 System.Threading.Thread.Sleep(20); //毫秒 1.1 主线程不卡延时函数 /* 主线程不卡延时函数 */public static void Delay_ms(int mil…

利用阿里云的尖端数据库解决方案增强游戏数据管理

在快节奏和动态的游戏世界中&#xff0c;对于努力为玩家提供无缝体验的公司来说&#xff0c;管理大量数据是一项关键挑战。阿里云是亚太地区的主要参与者&#xff0c;也是全球公认的运营数据库管理系统领导者&#xff0c;提供量身定制的创新解决方案&#xff0c;以应对游戏公司…

服务器为什么大多用 Linux?

服务器为什么大多用 Linux&#xff1f; 在开始前我有一些资料&#xff0c;是我根据自己从业十年经验&#xff0c;熬夜搞了几个通宵&#xff0c;精心整理了一份「Linux的资料从专业入门到高级教程工具包」&#xff0c;点个关注&#xff0c;全部无偿共享给大家&#xff01;&#…

APP自动化测试工具:八款推荐解析

uiautomator2 github地址&#xff1a;github.com/openatx/uia… UiAutomator 是 Google 提供的用来做安卓自动化测试的一个 Java 库&#xff0c;基于 Accessibility 服务。功能很强&#xff0c;可以对第三方 App 进行测试&#xff0c;获取屏幕上任意一个 APP 的任意一个控件属…

imgaug库指南(二):从入门到精通的【图像增强】之旅

文章目录 引言前期回顾代码示例小结结尾 引言 在深度学习和计算机视觉的世界里&#xff0c;数据是模型训练的基石&#xff0c;其质量与数量直接影响着模型的性能。然而&#xff0c;获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此&#xff0c;数据增强技术应…

【Redux】自己动手实现redux和react-redux

1. React提供context的作用 在class组件的世界里&#xff0c;如果后代组件共享某些状态&#xff0c;比如主题色、语言键&#xff0c;则需要将这些状态提升到根组件&#xff0c;以props的方式从根组件向后代组件一层一层传递&#xff0c;这样则需要在每层写props.someData&#…

【如何选择Mysql服务器的CPU核数及内存大小】

文章目录 &#x1f50a;博主介绍&#x1f964;本文内容&#x1f4e2;文章总结&#x1f4e5;博主目标 &#x1f50a;博主介绍 &#x1f31f;我是廖志伟&#xff0c;一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、清华大学出版社签约作…

提升代码托管,助力大数据学习!Git学习网站等你来挑战!

介绍&#xff1a;Git是一个开源的分布式版本控制系统&#xff0c;可以高效地处理各种规模项目的版本管理。它是Linus Torvalds为了帮助管理Linux内核开发而开发的开放源码版本控制软件。在Git中&#xff0c;你可以掌握工作区、暂存区和版本库等核心概念&#xff0c;并学会使用常…

VSCode远程连接centos

1 下载remote -ssh插件 2 在上方打开命令面板&#xff0c;输入>,再输入ssh&#xff0c;选择设置 Remote-SSH:Settings 那行 3 勾选下面这个选项 4 点击加号旁边的那个齿轮&#xff0c;选择.ssh\config ,配置连接信息&#xff0c;保存好后&#xff0c;刷新。 4 连接centos,然…