【深度学习】UNIT-DDPM核心讲解

文章目录

      • 大致介绍:
      • 扩散损失:
      • 转换损失:
      • 循环一致性损失:
      • 推理过程:
      • 优缺点:

参考文章:
https://blog.csdn.net/ssshyeong/article/details/127210086
这篇文章对整个文章 UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models进行了从头到尾的讲解,可以看一下。在此写一下自己的理解。

大致介绍:

这篇论文提出了一种新的图像翻译方法,即无配对的图像翻译,基于Denoising Diffusion Probabilistic Models(DDPM)。传统的无配对图像翻译方法通常使用对抗生成网络(GAN)或变分自编码器(VAE)来模拟两种语言之间的映射,但这些方法通常需要大量配对的数据来训练模型。而本文提出的方法则不需要配对的数据,因为它使用DDPM来学习两种语言之间的映射。DDPM是一种基于概率模型的去噪方法,可以通过对噪声进行多次迭代来生成清晰图像。本文将DDPM应用于无配对图像翻译,通过对两种语言图片进行多次迭代训练,可以获得较好的翻译效果。

具体来说,本文的方法分为两个步骤:训练阶段和生成阶段。在训练阶段,将DDPM应用于两种语言的图片数据集上,训练出两个DDPM模型。在生成阶段,通过交替对两个DDPM模型进行迭代,将一个语言的图片转换成另一个语言的图片。

本文的方法相对于传统方法的优点是不需要配对的数据,而且生成的图片具有一定的多样性和清晰度。但缺点是训练时间相对较长,因为DDPM模型需要进行多次迭代训练。

总之,本文提出了一种新的无配对图像翻译方法,通过应用DDPM模型实现了两种语言之间的图片转换,为跨语言翻译和相关领域的研究提供了新思路。

图解:
在这里插入图片描述
可以看到,本文使用两个扩散过程(源域和目标域的扩散),以及两个转换函数(将源域转到目标域和将目标域转到源域),也就是图像翻译。
为了使两个域之间能够转换,本文将最p过程进行了修改,使其带有条件。

扩散损失:

首先训练扩散过程中的参数:
在这里插入图片描述
依次排列括号里面的公式:A在t时刻的扩散图像;首先将A域图像转到B上,然后使用A域的扩散得到扩散图像,时刻t (先翻译,后扩散)
B在t时刻的扩散图像;首先将B域图像转到A上,然后使用B域的扩散得到扩散图像;时刻t。

转换损失:

接下来训练翻译函数,固定A和B的扩散参数:
在这里插入图片描述
依次罗列括号里面的公式:
先将B域图像转到A域,然后得到t时刻的扩散图像(A域上);B域图像在t时刻的扩散图像(B域上);时刻t。
B域图像在t时刻的扩散图像(B域上);首先将B域图像转到A上,然后使用B域的扩散得到扩散图像(B域上);时刻t。
后面一个类似。

循环一致性损失:

在这里插入图片描述
最终的损失函数:
在这里插入图片描述

推理过程:

在这里插入图片描述
之后使用DDPM里面的公式对其一步一步推导即可。
在这里插入图片描述

优缺点:

模型图:在这里插入图片描述
扩散模型采样步骤很费时间,可以使用DDIM等方法进行缩减;还可以通过其他trick进行改进生成质量(如注意力机制或者NL等方法)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/127564.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于 Vue-iClient-MapboxGL 的使用注意事项

官网:https://iclient.supermap.io/web/apis/vue/zh/api/guide/installation.html 关于图的使用,其余的引入步骤不再赘述,仅说注意事项。 推荐使用的是全局引入,也就是完整引入 因为单独引入我踩了不少坑,比如说 cs…

PCA和SVD数据降维

PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。 最大可分性 基向量乘原始矩阵会将矩阵映射到这个基向量空间中,如果基的数量少于向量本身的维数…

Pyside6 安装和简单界面开发

Pyside6 安装和简单界面开发 Pyside6介绍Pysied6开发环境搭建Python安装Pysied6安装 Pyside6界面开发简单界面设计界面设计界面编译 编写界面初始化代码软件打包 Pyside6介绍 对于Python的GUI开发来说,Python自带的可视化编程模块的功能较弱,PySide是跨…

浙江工业大学2024年工商管理硕士(MBA)联考网报指南

2024年MBA全国联考报名系统已开放。考生登录“中国研究生招生信息网”http://yz.chsi.com.cn进行报名。 网报分为“填写考生信息”和“填写报考信息”两大步骤,MBA中心特制作注意事项流程图供参考,希望能够帮助大家顺利报考。 预报名成功的考生&…

Git 学习笔记 | Git 的简介与历史

Git 学习笔记 | Git 的简介与历史 Git 学习笔记 | Git 的简介与历史Git 简介Git 历史 Git 学习笔记 | Git 的简介与历史 Git 简介 Git是分布式版本控制系统(Distributed Version Control System,简称 DVCS),分为两种类型的仓库&…

网关、网桥、路由器和交换机之【李逵与李鬼】

概念 网关 网关简单来说是连接两个网络的设备,现在很多局域网都是采用路由器来接入网络,因此现在网关通常指的就是路由器的IP。网关可用于家庭或者小型企业,连接局域网和Internet,也有用于工业应用的。 网桥 网桥也叫桥接器,是连接两个局域网的一种存储/转发设备,它能…

AI智能创作系统ChatGPT商业运营源码+AI绘画系统/支持GPT联网提问/支持Midjourney绘画+支持国内AI提问模型+Prompt应用

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统,支持国内AI提问模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作ChatGPT&#xff1f…

【AI工程化】 如何让AI在企业多快好省的落地,提高生产效率?

文章目录 🌺前言🌺内容简介🌺读者对象🌺专家推荐🎆彩蛋 🌺前言 作为计算机科学的一个重要领域,机器学习也是目前人工智能领域非常活跃的分支之一。机器学习通过分析海量数据、总结规律&#xf…

Python实现JavaScript中AES加密有关填充问题

1. 先展示一下JS端的格式(没找到没混淆的。。。,将就看吧) 2. 在python加密中是没有选择填充模式的,需要自己来填充 3. 对加密不懂的朋友可能跟我一样刚开始很懵逼,因为遇到的基本都是pksc7填充模式,但是网…

Node.js代码漏洞扫描工具介绍——npm audit

npm audit 运行安全检查 主要作用:检查命令将项目中配置的依赖项的描述提交到默认注册中心,并要求报告已知漏洞。如果发现任何漏洞,则将计算影响和适当的补救措施。如果 fix 提供了参数,则将对包树应用补救措施。 具体参考&#x…

【数据分享】1901-2022年1km分辨率的逐月潜在蒸散发栅格数据(免费获取/全国/分省)

气象指标在日常研究中非常常用,之前我们给大家分享过来源于国家青藏高原科学数据中心提供的气象指标栅格数据(均可查看之前的文章获悉详情): 1901-2022年1km分辨率逐月平均气温栅格数据 1901-2022年1km分辨率逐年平均气温栅格数据…

PyQt5+Qt设计师初探

在上一篇文章中我们搭建好了PyQt5的开发环境,打铁到趁热我们基于搭建好的环境来简单实战一把 一:PyQt5包模块简介 PyQt5包括的主要模块如下。 QtCore模块——涵盖了包的核心的非GUI功能,此模块被用于处理程序中涉及的时间、文件、目录、数…