魔改Stable Diffusion,开源创新“单目深度估计”模型

单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。

即便使用更强大的深度学习模型来实现,也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。

为了解决这些难题,苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练,而是在Stable Diffusion(著名开源文生图模型)的基础上进行微调,只需要使用合成数据微调了中间的去噪网络,其他模块例如,编码/解码结构均保持原样,极大降低了训练成本。

实验数据显示,尽管Marigold从未直接学习过真实的深度信息,但在真实场景的测试中,其性能却超越了其他专门训练过的模型,并且迁移、兼容性非常强。

开源地址:https://github.com/prs-eth/Marigold

论文地址:https://arxiv.org/abs/2312.02145

图片

Marigold的核心技术思路是,利用Stable Diffusion模型所捕获的丰富先验知识,来提升深度估计的泛化能力和性能。

简单来说,就是把Stable Diffusion当成一个图片查询数据库,只修改其去噪模块,就变成了可实现单目深度估计的全新模型

Marigold的关键点在于保持预训练扩散模型的潜在空间,只对去噪U-Net进行修改和微调。

这种方法非常高效,无需实际深度图像的训练数据,就能在多个真实数据集上取得出色的性能表现。

图片

Marigold提供了一个简单而资源高效的微调协议,将预训练的扩散生成模型转化为图像条件的深度估计器,成为了一种功能强大的单目深度估计模块。

Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天,将Stable Diffusion转化为Marigold模型。主要流程如下:

去噪U-Net

研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块,来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络,用于从输入图像中学习去除噪声的表示。

图片

在Marigold模型中,研究人员保持了扩散模型的潜空间不变,只对去噪U-Net模块进行微调,以适应深度估计任务。

合成数据训练

为了微调Marigold模型,研究人员使用了合成的RGB-D训练数据,对模型进行训练。合成数据是通过在虚拟环境中,渲染图像并生成对应的深度图来创建的。

通过使用合成数据进行训练,Marigold可以学习到广泛的场景和物体形状,从而提高其在未见过数据集上的泛化能力。

仿射不变深度估计

Marigold使用了一种仿射不变的深度估计方法,能够估计图像中每个像素的深度值,而不受全局偏移和尺度的影响。

图片

这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性,而引入的深度估计误差。

本文素材来源Marigold论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/317877.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OEE如何为制造企业实施ISO50001提供支持

ISO50001是一项旨在帮助企业建立和实施能源管理体系的国际标准,以提高能源效率、降低能源消耗和减少环境影响。而设备OEE(设备综合效率)作为一个关键的生产效率指标,可以为企业实施ISO50001提供重要的支持。本文将介绍ISO50001能源…

【LeetCode-剑指offer】-- 9.乘积小于K的子数组

9.乘积小于K的子数组 方法:滑动窗口 关于为什么子数组数目为j-11。这时候就要理解采用滑动窗口的思路其实是枚举子数组的右端点,然后来找到满足条件的最小左端点。也即当得到满足条件的窗口时,就意味着得到了以 j 作为右端点时满足条件的左端…

精彩回顾 I DatenLord Hackathon 2023圆满结束!

DatenLord Hackathon 2023已经顺利完赛。达坦科技基于其跨云分布式文件系统DatenLord项目,结合AI大模型时代背景,搭建了擂台。我们邀请参赛者为DatenLord的极端场景设计并实现缓存 p2p 传输和同步模块。 本届赛题为“Explore the Possibilities”&#…

宣传照(私密)勿转发

精美的海报通常都是由UI进行精心设计的,现在有100 件商品需要进行宣传推广,如果每个商品都出一张图显然是不合理的,且商品信息各异。因此需要通过代码的形式生成海报。对此,我也对我宣传一波,企图实现我一夜暴富的伟大…

[足式机器人]Part2 Dr. CAN学习笔记-自动控制原理Ch1-7Lead Compensator超前补偿器(调节根轨迹)

本文仅供学习使用 本文参考: B站:DR_CAN Dr. CAN学习笔记-自动控制原理Ch1-7Lead Compensator超前补偿器(调节根轨迹) 1. Plot Rootlocus 绘制根轨迹2. System Performance 系统表现3. 改善/加快收敛速度4. 超前补偿器 Lead Compe…

什么是向量数据库

什么是向量数据库 向量数据库是一种应用在高效存储和查询高维向量的数据库。在传统的OLTP和OLAP数据库中(如上图所示),数据按行和列组织(这些称为表),并根据这些列中的值执行查询。然而,在某些应…

stm32学习总结:5、Proteus8+STM32CubeMX+MDK仿真串口并使用串口打印日志(注意重定向printf到串口打印的问题)

stm32学习总结:5、Proteus8STM32CubeMXMDK仿真串口并使用串口打印日志(注意重定向printf到串口打印的问题) 文章目录 stm32学习总结:5、Proteus8STM32CubeMXMDK仿真串口并使用串口打印日志(注意重定向printf到串口打印…

.babky勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复

导言: 网络安全威胁不断进化,其中.babky勒索病毒引起了广泛关注。这篇文章91数据恢复将深入介绍.babky的狡猾特征,以及在遭受其袭击时如何高效地恢复被加密的数据,并提供实用的预防方法。当面对被勒索病毒攻击导致的数据文件加密…

Halcon顶帽运算与底帽运算的应用

Halcon顶帽运算与底帽运算的应用 文章目录 Halcon顶帽运算与底帽运算的应用1. 提取小的物件2. 校正非均匀光照 正如上文所说的,顶帽运算返回的像素部分是尺寸比结构元素小的,并且比较亮的局部小区域;底帽运算返回的像素部分是尺寸比结构元素小…

【计算机网络】网络层

文章目录 网络层提供的服务虚电路数据报服务虚电路与数据报服务比较 虚拟互连网络IP地址IP层次结构IP地址分类特殊地址子网掩码 子网划分变长子网划分超网合并网络规律 IP地址与MAC地址ARP协议ARP欺骗的应用 数据包数据包首部 路由ICMP协议RIP动态路由协议OSPF协议BGP协议 VPNN…

SpringMVC学习与开发(三)

注:此为笔者学习狂神说SpringMVC的笔记,其中包含个人的笔记和理解,仅做学习笔记之用,更多详细资讯请出门左拐B站:狂神说!!! 10、ssm整合 问了一下ChatGPT SSM 是一个基于 Java 的开发框架整合,由 Spring、…