[思考] Diffusion Model

news/2024/9/18 9:03:36/文章来源:https://www.cnblogs.com/fariver/p/18186380

时间线

以下是一些重要的里程碑,它们代表了基于Diffusion的图像生成方法的发展:

时间&机构 名称 简述
- VAE Variational AutoEncoder,变分自编码器用于图像生成
2020.12 VQ-VAE Vector Quantized-Variational AutoEncoder,一种用于生成模型的量化技术
2020.12 VQ-GAN Vector Quantized-Generative Adversarial Network,结合了量化和对抗性生成模型
2020.12 UCBerkeley DDPM Denoising Diffusion Probabilistic Models,开创性地使用扩散过程生成图像
2020.12 Stanford DDIM Denoising Diffusion Implicit Models,显著提高了DDPM的生成速度
2021.12 Runway LDM Latent Diffusion Models,将扩散过程应用于潜在空间以生成图像
2021.12 Stability AI StableDiffusion LDMs模型效果比较好的开源图像生成模型
2022.02 OpenAI DALLE 以文本与图像作为token,利用Transformer的自回归机制来生成图像
2022.03 OpenAI GLIDE 基于DiffusionModel,关键创新在于提Classifier-free,将类别c直接作为模型先验输入
2022.04 OpenAI DALLE2 也叫UnClip,通过text embedding扩散为img embedding,将img embedding扩散出image
2022.10 OpenAI DALLE3 推测基于DALLE2,通过仿真加入部分高描述性的图文对
2022.05 Google Imagen 通过LLM抽取text embedding,通过cross attention融入Diffusion Model
2023/03 UC Berkeley && NYU DIT 将latent diffusion中的UNet替换为ViT
OpenAI SOTA参考1、 SOTA参考2 将latent diffusion中的UNet替换为ViT
Stanford University ControlNet Fintinue

更多文章参考 https://github.com/CroitoruAlin/Diffusion-Models-in-Vision-A-Survey

数据集

在基于Diffusion的图像生成研究中,常用的数据集包括但不限于:

Unconditional Image Generation

数据集名称 机构 数量 官网
CelebA-HQ NVIDIA 3万分辨率1024×1024人脸 超分算法+人工筛选,具体参考文章中AppendixC
FFHQ NVIDIA 7万分辨率1024×1024人脸 具体参考项目
LSUN Princeton University 1M 10个场景20个类别 paper

Conditional Image Generation

数据集名称 机构 数量 官网
LAION-400M LAION 400M paper, project
YFCC100M 2016年Yahoo Labs等 100M图文对,源于雅虎 paper
JFT300M 2017年Google/CMU 300M 18291个类别 paper

评测方法

FID(Fréchet Inception Distance)

衡量的是生成图像与真实图像在特征空间中的分布距离,FID越低,表示生成图像与真实图像的分布越接近。具体测试方法如下:真实样本与生成样本采样相同数据集,使用CNN提取特征点后,用高斯分布来拟合,判断这两个分布之间距离。例如zero shot FID-30K 是从验证集中随机抽取30k个prompts,待评测模型使用这些prompts生成图像再使用CNN抽取特征,计算特征拟合出的高斯分布与验证集所有图像特征的高斯分布之间的距离。

IS(Inception Score)

一种衡量生成模型输出图像质量的指标,特别是在评估图像生成模型时被广泛使用,IS越高,表示生成图像的质量与多样性越好。

IS from kimichat Fromkimichat(提示词:那Inception Score有如何衡量生成图像的质量高低呢?) ## Inception Score 衡量生成图像质量的指标

Inception Score (IS) 是一种衡量生成模型输出图像质量的指标,特别是在评估生成对抗网络(GANs)时被广泛使用。它基于一个简单的观点:如果一个模型能够生成多样且真实的图像,那么这些图像在类别层面上应该是不可区分的,即模型生成的图像应该能够被Inception网络正确分类,并且类别分布应该是多样化的。

Inception Score 的计算步骤

  1. 生成图像集合:首先,从生成模型中生成一批图像。

  2. 分类概率分布:接着,使用一个预训练的Inception网络(或类似的分类网络)对这些生成的图像进行分类,得到每张图像的类别概率分布。

  3. 计算边缘熵:对于每张图像,计算其类别概率分布的边缘熵(即类别熵的期望值)。边缘熵是一个衡量分布多样性的指标,熵越高,表示分布越分散,即类别越多样化。

  4. 计算Inception Score:最后,Inception Score是所有生成图像边缘熵的平均值乘以一个常数(通常是分类网络的类别数)。数学上,如果 ( p(y|x) ) 是模型预测图像 ( x ) 属于类别 ( y ) 的概率,那么Inception Score 可以表示为:

    [ IS = \exp\left(\mathbb{E}_{x}\left[ H(p(y|x)) \right] \right) ]

    其中,( H(p(y|x)) ) 是针对单个图像的熵,计算为 ( -\sum_{y} p(y|x) \log p(y|x) )。

Inception Score 反映的质量指标

  • 多样性:生成图像的类别分布越分散,得分越高。
  • 真实性:生成图像需要能够被正确分类,即类别概率分布的峰值不应太低。

一个高的Inception Score 意味着生成的图像既多样又真实。然而,Inception Score 也有一些局限性,例如它可能不会考虑到图像的感知质量,也不会衡量图像的分辨率或细节。此外,Inception Score 也可能受到模型过拟合的影响,因为过拟合的模型可能会生成高度一致的图像,从而获得较高的分数。

尽管存在这些局限性,Inception Score 仍然是评估生成模型性能的一个有用且广泛使用的指标。

CLIP Score

将condition text与生成的图像送入训练好的CLIP模型中,计算整个测试集得分。

经典方法框架

基于Diffusion的图像生成方法通常遵循以下框架:

  1. 正向扩散: 逐步向数据添加噪声,将其转化为一个简单的分布。
  2. 训练阶段: 使用神经网络学习如何逆转扩散过程,即预测并去除噪声。
  3. 逆向生成: 从简单的分布开始,逐步去除噪声,生成高质量的图像。

核心原理参考:DDPM原理

最新研究方向及SOTA

最新的研究方向包括:

  1. 条件扩散模型: 通过引入条件信息(如文本描述、高描述性Text、草图)来控制图像生成过程。
  2. 扩散空间:图像空间 -> 潜空间
  3. 扩散模型的加速: 通过改进算法和硬件加速,减少生成图像所需的时间。例如 DDIM、DeepCache。
  4. 扩散模型的稳定性: 通过改进模型结构和训练策略,提高生成图像的稳定性和质量。

当前SOTA (State of the Art) 的模型包括:

  • Imagen3
  • DALLE3
  • Stable Diffusion3

业务使用场景

基于Diffusion的图像生成技术在多个业务场景中具有广泛的应用:

  1. 艺术创作: 生成独特的艺术作品和图案。
  2. 游戏开发: 生成游戏中的环境、角色和物品。
  3. 广告设计: 生成吸引人的广告图像和海报。
  4. 数据增强: 为机器学习模型提供更多的训练数据。
  5. 虚拟试衣: 根据用户的身材和偏好生成服装的试穿效果。
  6. 个性化推荐: 根据用户的兴趣生成个性化的图像内容。

随着技术的不断发展,基于Diffusion的图像生成方法将在更多领域发挥重要作用,推动人工智能和创意产业的进步。

相关链接

Diffusion Models in Vision: A Survey
相关Paper汇总
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization
Video Diffusion Models: A Survey

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/786259.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何正确使用搜索引擎(屏蔽csdn)

浏览器星愿浏览器 我使用的是星愿浏览器,推荐使用,其中有个性化的设置和搜索引擎的优化辅助,搜索引擎我选择的有:百度 必应 谷歌 DuckDuckGo 检索过程中想要快速切换各种搜索引擎,星愿浏览器有提供辅助拓展插件这里主要推荐每氪净化,可以自动添加屏蔽,例如CSDN搜索后结果…

Pollard Rho 算法

Pollard Rho 算法 难评,看OI-WIKI吧。 引入 Pollard Rho 算法用于求快速找到一个正整数 \(n\) 的一个非平凡因数[1]。 生日悖论不考虑出生年份(假设每年都是365天),问:一个房间中至少多少人,才能使其中两个人生日相通的概率达到 \(50\%\)?解:假设一年有 \(n\) 天,房间…

史上最牛的 权限系统,如何设计? 来了一个 Sa-Token学习圣经

文章很长,且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 :《尼恩Java面试宝典》 持续更新+ 史上最全 + 面试必备 2000页+ 面试必备 + 大厂必备 +涨薪必备 免费赠送 :《尼恩技术圣经+高并发系列PDF》 ,帮你 实现技术自由,…

POLIR-政治-真实社政: 理论与事实的统一与颠倒 : “改革”与“政治民主+经济市场” VS 特权集团为“既得利益”以“集权和垄断”的“假改革”忽悠人

改革有两个永恒的目标:经济的市场化 和 政治的民主化。 特权阶层和既得利益者, 为了“保住特权和既得利益”会拼力地“反对这两个目标“, 他们用“集权和垄断”的“假改革”来忽悠人们,实际上是开历史倒车。吴敬琏(经济学家)

软件工程进度报告——第八周

本周尝试练习了飞机购票问题样例1样例2

RK3588 HDMI IN调试

HDMI RX控制器配置:/* Should work with at least 128MB cma reserved above. */&hdmirx_ctrler {status = "okay";/* Effective level used to trigger HPD: 0-low, 1-high */hpd-trigger-level = <1>;hdmirx-det-gpios = <&gpio1 RK_PD5 GPIO_ACT…

阿里云服务器很久未用,服务访问异常

很久(大概一两个月)都没在使用自己的个人阿里云服务器,当自己再次访问时,竟然报错无法访问,这让自己很是意外!! 然后自己开始排查问题。 登录服务器查看docker服务,发现全部正常。 可是当自己打算重新启动时发现问题,竟然无法重启,这就很奇怪了,服务不都好好的嘛,怎么…

程序设计语言基础-有限自动机+正规式

不确定的有限自动机 NFA 该状态机在任何一个状态,基于输入的字符都不能做成一个确定的状态转换,这里分为两种状况。对于一个输入,它有两个状态可以转换。 存在ε的情况,即没有任何字符输入的情况下,NFA可以从一个状态迁移到另一个状态。确定的有限自动机 DFA 该状态机在任…

程序设计语言基础-编译过程概述+表达式

程序设计语言分类 面向机器的语言 由0、1组成的机器指令序列或汇编语言(如:move ax,bx),可读性差,难以修改和维护。 面向应用程序的语言 如,Java、C、C++、Python、Delphi、PASCAL等,更接近人类语言,提高程序设计效率。 程序设计语言分类生成目标代码过程编译程序 词法分…

微软RDL远程代码执行超高危漏洞(CVE-2024-38077)漏洞检测排查方式

漏洞名称:微软RDL远程代码执行超高危漏洞(CVE-2024-38077) CVSS core: 9.8漏洞描述: CVE-2024-38077 是微软近期披露的一个极其严重的远程代码执行漏洞。该漏洞存在于Windows远程桌面许可管理服务(RDL)中,攻击者无需任何权限即可实现远程代码执行,获取服务器最高权限…

人生的意义

人生的意义。(一) 人生的意义:美好的事物吸引(使)美好的人去爱。爱一个事物后,就在意这个事物,想和这个事物在一起,依恋这个事物(不想和这个事物分开),想充分感受和体验这个事物,追求和得到这个事物,关心和守护这个事物,让这个事物幸福,等等很多情感。 俗话说“…