Muse论文精读

Muse

Abstract

我们介绍了Muse,一个文本到图像的Transformer模型,它实现了最先进的图像生成性能,同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse被训练来预测随机掩码图像标记。与Imagen和dall - e2等像素空间扩散模型相比,Muse由于使用离散令牌和需要更少的采样迭代而显着提高了效率;与自回归模型(如Parti)相比,Muse由于使用并行解码而效率更高。使用预训练的LLM可以实现细粒度的语言理解,转化为高保真的图像生成和对视觉概念的理解,如物体,它们的空间关系,姿势,基数等。我们的900M参数模型在CC3M上实现了新的SOTA, FID评分为6.06。Muse 3B参数模型在零射击COCO评估中实现了7.88的FID,以及0.32的CLIP评分。Muse还直接启用了许多图像编辑应用程序,而无需对模型进行微调或反转:内涂,外涂和无蒙版编辑。更多的结果可以在http://muse-model.github.io上找到。

在这里插入图片描述

我们的基本模型是一个masked transformer,其中输入是投影的T5嵌入和图像标记。我们保留所有的文本嵌入,并随机屏蔽不同比例的图像标记,并用一个特殊的[mask]标记替换它们。然后,我们将图像标记线性映射到所需Transformer输入/隐藏大小的图像输入嵌入以及学习的2D位置嵌入。根据之前的变压器架构,我们使用多个变压器层,包括自注意块、交叉注意块和MLP块来提取特征。在输出层,使用MLP将每个掩膜图像嵌入转换为一组logits,并以ground truth令牌标签为目标应用交叉熵损失。在训练时,训练基本模型在每一步预测所有掩码令牌。然而,对于推理,掩码预测以迭代的方式执行,这大大提高了质量。

Contribution

1.性能表现

图7显示了Muse、Dall-E2和Imagen在一些选择提示上的比较,表明Muse与Imagen相当,并且在许多提示上的质量优于Dall-E2。

在这里插入图片描述
“灰色”和“吃花生”),可能的单词和短语的虚拟连续体要求模型以不同的方式学习。相反,它必须学习对短语、单词和字母的分层理解。图6的左下角展示了Muse在呈现时使用整个文本提示符,而不是聚焦

图7显示了Muse、Dall-E2 (Ramesh等人,2022)和Imagen(撒哈拉等人,2022)在一些选择提示上的比较,表明Muse与Imagen相当,并且在许多提示上的质量优于Dall-E2。

2.量化性能(Quantitative Performance)

在表1和表2中

结果表明,两个Muse模型都在CC3M数据集上进行了训练。COCO结果是zero-shot,使用与Imagen相同的数据集训练的模型。

我们的632M模型在CC3M上达到了SOTA结果,显著提高了FID评分的水平,也达到了CLIP评分的水平。

我们的3B模型的FID得分为7.88,略好于参数数量相似的part -3B模型的8:1得分。我们的CLIP得分为0.32,高于Imagen的CLIP得分0.29。对于FID为7.27,Imagen的CLIP得分约为0.27。

我们的采样算法有许多超参数,如制导尺度、采样温度、是否在采样过程中线性增加制导等。我们对这些参数执行求值扫描。我们发现采样参数的子集是帕累托有效的,在某种意义上,我们不能在不损害CLIP的情况下改进FID。

这允许我们研究多样性和图像/文本对齐之间的权衡,如图8所示。

在这里插入图片描述

FID分数是生成图片和原始图片距离分数,越小越好。CLIP分数是衡量图片和图片描述的匹配分数,越高

在这里插入图片描述

side-by-side evaluations对比试验

在这里插入图片描述

向人类评分者提供一个文本提示和两个图像,每个图像由使用该提示的不同文本到图像模型生成。评分者被要求通过“哪张图片与标题更匹配?”这个问题来评估即时图像的一致性。

inference speed

在表3中,我们将Muse的推理时间与其他几个流行模型进行了比较。我们在TPUv4加速器上对part - 3b、Imagen和Muse-3B进行了内部基准测试。

对于Stable Diffusion/LDM,我们使用了最快的基准测试(Lambda Labs, 2022),该测试是在A100 gpu上完成的。对于Stable Diffusion,我们测试的TPU实现并不比A100实现快。我们还报告了具有250次迭代的LDM的推断时间,这是用于实现表2中FID的配置。Muse的速度明显快于与之竞争的扩散模型或自回归模型,尽管参数数量相当(比Stable diffusion /LDM多3倍左右)。Muse相对于Imagen的速度优势是由于使用离散令牌和需要更少的采样迭代。Muse相对于Parti的速度优势是由于使用了并行解码。Muse相对于Stable Diffusion的速度优势主要是由于需要更少的采样迭代。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/702206.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在k8s中部署单机版Elasticsearch,并进行数据持久化

🐇明明跟你说过:个人主页 🏅个人专栏:《洞察之眼:ELK监控与可视化》🏅 🔖行路有良友,便是天堂🔖 目录 一、引言 1、Elasticsearch简介 2、k8s简介 二、存储准备 …

德昂信息-Wyn助力构建HR人员信息分析看板

”葡萄城的Wyn商业智能软件产品为德昂信息提供了强大的支持,借助Wyn商业智能软件,可以通过可视化方式展示整个公司的人员信息及其分析看板。“ ——德昂信息技术(北京)有限公司 公司简介 德昂信息技术(北京)有限公司(以下简称德昂信息&…

Web前端开发 - 4 - CSS3动画

CSS3动画 一、 设计2D变换二、 设计3D变换三、 设计过渡动画四、设计帧动画 一、 设计2D变换 transform : none | <transform-function> /* <transform-function> 设置变换函数&#xff0c;可以是一个或多个变换函数列表。函数包括: martrix(x缩放,x倾斜,y倾斜,y…

Chromium 调试指南2024 Windows11篇-调试变量监视(十)

1. 前言 设置断点和监视变量是调试过程中常用的两种技术手段。通过设置断点&#xff0c;我们可以暂停程序的执行并检查程序的内部状态&#xff0c;而监视变量则可以帮助我们实时查看程序中关键变量的值。本文将介绍如何在Chromium项目中进行断点设置和变量监视&#xff0c;帮助…

2024CCPC全国邀请赛(郑州)暨河南省赛

2024CCPC全国邀请赛&#xff08;郑州站&#xff09;暨河南省赛 一铜一银&#xff0c;虽不是线下第一次参赛但是第一次拿xcpc奖牌&#xff0c;还有个国赛奖真是不戳。感谢学长&#xff0c;感谢队友&#xff01; 虽然遗憾没有冲到省赛金&#xff0c;不过还有icpc商丘&#xff08…

软件工程期末复习(7)需求过程

需求分析 需求过程 什么是需求过程&#xff1f; 需求过程是用来导出、确认和维护系统需求文档的一组结构化活动。通常&#xff0c;一个良好的需求过程应包括下列活动&#xff1a; 需求提取需求分析和协商需求确认 需求提取 需求提取是通过与客户、系统用户和其他与系统开发相…

面 试 题

过滤器和拦截器的区别 都是 Aop 思想的一种体现&#xff0c;用来解决项目中 某一类 问题的两种接口(工具)&#xff0c;都可以对请求做一些增强 出身 过滤器来自 servlet 拦截器来自 spring 使用范围 过滤器 Filter 实现了 iavax.servlet.Filter 接口&#xff0c;也就是说…

金航标kinghelm萨科微slkor公司发展和品牌传播

为了金航标kinghelm萨科微slkor公司发展和品牌传播&#xff0c;推出了”金航标每日芯闻“与“萨科微每日芯闻“栏目&#xff0c;影响力非常好。这一构想并非一时的灵光乍现&#xff0c;而是经过深思熟虑和充分调研的结果。制定该栏目的模板时候时&#xff0c;就明确了要求语音版…

C++进阶:红黑树介绍及模拟实现(图示详解过程)

C进阶&#xff1a;红黑树介绍及模拟实现 上次介绍了AVL树&#xff1a;C进阶&#xff1a;AVL树详解及模拟实现&#xff08;图示讲解旋转过程&#xff09; 今天就来紧接着来红黑树啦!!! 文章目录 1.红黑树介绍约束规则 2.项目文件规划3.整体框架&#xff08;节点和Tree&#xf…

html--地图

<!DOCTYPE html> <html lang"en"> <head><meta charset"utf-8"><title>ECharts</title><!--Step:1 引入一个模块加载器&#xff0c;如esl.js或者require.js--><script src"js/esl.js"></scr…

记一次洛谷刷题让人摸不到头脑的报错——Runtime Error.Received signal 6: Aborted / IOT trap.

报错题目 外星密码 - 洛谷 具体报错信息 Runtime Error.Received signal 6: Aborted / IOT trap. 错误代码 #include <iostream> #include <cstring> using namespace std;string sol() {string s "";string t "";char c ;int n 0;whi…

OpenAI 重磅发布GPT 4o!可以视频聊天的AI?

OpenAI 重磅发布GPT 4o&#xff01; 前言 就在今日&#xff0c;OpenAI发布了ChatGPT-4o版本&#xff0c;技术主管 Mira Murati 在直播中表示GPT-4o对比之前版本速度更快&#xff0c;在文本、视频和音频方面的能力也都有所提高。值得注意的是它还可以让用户与 ChatGPT 进行视频聊…