AI大模型开发架构设计(2)——AI绘画技术架构应用实践

文章目录

      • 1 AI绘画整体流程
      • 2 AI绘画技术架构
        • 文生图核心算法原理
        • 文生图工程架构
      • 3 AI绘画的应用实践

1 AI绘画整体流程

  • 第一步:输入 Prompt 提示词:/mj 提示词
  • 第二步:文生图(Text-to-Image)构图
  • 第三步:图片渲染
  • 第四步:图片展示

image.png

2 AI绘画技术架构

文生图核心算法原理
  • 把人类创造的内容用一个高维的数学向量进行表示
    • 如果内容到向量的“翻译”足够合理且能代表内容的特征,人类所有的创作内容都可以转化到空间里的向量。
  • 文生图整体可以分为三个部分:Language Model(语言模型)、Diffusion Model(扩散模型)、Decoder Model(解码模型)。

Language Model(语言模型)→Text Encoder(文本编码)

  • Language Model 是将输入的 Prompt 文本提示词转化为可以输入到 Diffusion Model 使用的表示形式,通常使用 Embedding 加上一些 Radom Noise 输入到下一层。

image.png

Diffusion Model(扩散模型)→Image Information Creator

  • 它是一个时间条件 U-Net(用于图像分割的深度学习架构),它将文本表示和一些高斯噪音作为模型输入,将对应的图像添加一些高斯噪音,得到一个有点噪点的图像,在时间上重复这个过程,重复几百次后就可以获得完全嘈杂的图像。
  • 这么做的过程,记录每个步骤的图像版本,用训练的 NN 就可以将噪声较大的示例作为输入,预测输出新图像。

image.png

Decode Model(扩散模型)→放大 Diffusion Model 的输出到完整图像

  • 它获得 Diffusion Model 的输出并放大到完整图像。
    • 比如:扩散模型在 64 X 64 PX 上训练,解码模型将其提高到 512 X 512 PX。

image.png

训练Encoder模型

  • 在训练过程中,还有一个 Encode Model,它是 Decoder Model 的对应部分,它的目标是将输入图像转化为具有高语义意义的缩减采样表示,会消除与图像不太相关的高频视觉噪声。
  • Encoder Model 和 Diffusion Model 训练分开,采用 Encoder Model 后的图像作为 Diffusion Model 的输入,就可以在图像空间的训练比原始图像计算少64倍,大大节省了计算成本。
  • 训练模型的训练&推理是计算最贵的部分。
文生图工程架构
  • 微服务 + 云原生实时弹性计算和扩容架构

image.png

3 AI绘画的应用实践

  • 多模态的支持能力:文生图 + 图生图 + 图生文

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/417125.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——Java实现栈和队列

一、栈 Stack 1.特点 (1)栈是一种线性数据结构 (2)规定只能从栈顶添加元素,从栈顶取出元素 (3)是一种先进后出的数据结构(Last First Out)LIFO 2.具体实现 Java中可…

STM32--7针0.96寸OLED屏幕显示(4线SPI)

本文介绍基于STM32F103C8T60.96寸OLED(7针)的显示(完整程序代码见文末链接) 一、简介 OLED,即有机发光二极管( Organic Light Emitting Diode)。 OLED 由于同时具备自发光,不需背光…

一个关于自动化工具的操作手册

整体 整个软件由首页、设计页构成 首页 按钮功能 清除缓存:主要为了避免线程占用的问题,端口占用无法重新执行。所以操作执行任务、修改任务、新建任务没有响应时,可以操作该事件新建任务:顾名思义就是创建一个网页自动化任务执…

傲空间私有部署Windows指南

推荐阅读 智能化校园:深入探讨云端管理系统设计与实现(一) 智能化校园:深入探讨云端管理系统设计与实现(二) 安装 docker 请下载对应的 Docker,安装完成后启动。 Docker Desktop for Windows…

(2023版)斯坦福CS231n学习笔记:DL与CV教程 (14) | 强化学习(Robot Learning)

前言 📚 笔记专栏:斯坦福CS231N:面向视觉识别的卷积神经网络(23)🔗 课程链接:https://www.bilibili.com/video/BV1xV411R7i5💻 CS231n: 深度学习计算机视觉(2017&#xf…

Unity中URP下获取主灯信息

文章目录 前言一、计算BulinnPhone的函数有两个重载1、 目前最新使用的是该方法(这是我们之后主要分析的函数)2、 被淘汰的老方法,需要传入一堆数据 二、GetMainLight1、Light结构体2、GetMainLight具有4个方法重载3、1号重载干了什么&#x…

漫漫数学之旅008

文章目录 经典格言数学习题古今评注名人小传(一)莫扎特(二)赫拉克利特 经典格言 如果我们不期望着意外,那么我们永远找不到意外。——赫拉克利特(Heraclitus) 赫拉克利特的这句名言“如果我们不…

vbscript和asp.net的一些整理

1、前言 因为工作中有涉及,因此就把一些常用的代码整理了一下。 2、vbscript 2.1、do while循环 Dim rs do while not rs.Eof rs.eof表示结果集无法获取更多的数据即(End Of File),表示结果集遍历结束sManagerIDssManagerIDs&a…

【Qt】ubuntu环境下使用命令行安装Qt

起因是我上一篇文章说的,官网下的安装包卡死在第一步安装界面了。 于是我就问GPT有没有纯命令行的安装方式,果然是有的。 在Ubuntu上安装Qt可以使用以下命令: 1. 首先,添加Qt的官方存储库到系统中: sudo add-apt-rep…

线性规划案例分享

今天想写一个最优传输的简单实现,结果学歪了,学到线性规划去了,这里我发现了一个宝藏网站 虽然是讲计量经济的,但是里面提供的公式和代码我很喜欢,有时间可以好好读一下 https://python.quantecon.org/lp_intro.html …

2024年【G1工业锅炉司炉】考试报名及G1工业锅炉司炉实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 2024年【G1工业锅炉司炉】考试报名及G1工业锅炉司炉实操考试视频,包含G1工业锅炉司炉考试报名答案和解析及G1工业锅炉司炉实操考试视频练习。安全生产模拟考试一点通结合国家G1工业锅炉司炉考试最新大纲及…

three.js从入门到精通系列教程016 - three.js通过OrbitControls对立方体实现旋转和缩放

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>three.js从入门到精通系列教程016 - three.js通过OrbitControls对立方体实现旋转和缩放</title><script src"ThreeJS/three.js"></script><…