一个Transformer在尺度上适合多模态扩散的所有分布

文章目录

  • One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
    • 摘要
    • 本文方法
    • 实验结果

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

摘要

本文提出了一个统一的扩散框架(UniDiffuser)来拟合一个模型中与一组多模态数据相关的所有分布。
我们的关键观点是——边缘分布、条件分布和联合分布的学习扩散模型可以统一为预测扰动数据中的噪声,其中扰动水平(即时间步长)对于不同的模态可能是不同的。
受统一视图的启发,UniDiffuser同时学习所有分布,对原始扩散模型进行最小的修改-扰动所有模态的数据,而不是单一模态,输入不同模态的单个时间步长,预测所有模态的噪声,而不是单一模态.
UniDiffuser是由扩散模型的转换器参数化的,以处理不同模态的输入类型。
UniDiffuser在大规模成对的图像-文本数据上实现,可以通过设置适当的时间步来执行图像、文本、文本到图像、图像到文本和图像-文本对的生成,而不需要额外的开销。
特别是,UniDiffuser能够在所有任务中产生感知上真实的样本,其定量结果(例如FID和CLIP分数)不仅优于现有的通用模型,而且在代表性任务(例如文本到图像生成)中也可与定制模型(例如,Stable Diffusion和DALL·e2)相媲美。
代码地址

在这里插入图片描述

本文方法

在这里插入图片描述
与定制扩散器的比较。UniDiffuser在Ho等人的最小修改下同时拟合所有分布(2020)。特别是,通过适当地设置时间步长(或噪声水平),它退化为预定的扩散模型
形式上,假设我们有两个从分布q(x0, y0)中采样的数据模态。我们的目标是设计一个基于扩散的模型,能够捕获由q(x0, y0)决定的所有相关分布,即边际分布q(x0)和q(y0),条件分布q(x0|y0)和q(y0|x0),以及联合分布q(x0, y0)。
使用扩散模型学习分布等同于估计噪声上的条件期望。对边际分布q(x0)进行建模相当于估计注入到xt的噪声的条件期望,即E[λ x |xt]。同样,在对条件分布q(x0|y0)和联合分布q(x0, y0)进行建模时要估计的关键量分别是E[λ x |xt, y0]和E[λ x, λ |xt, yt]。
在这里插入图片描述
联合图像和文本
在这里插入图片描述
UniDiffuser对图像-文本数据的实现。(a)首先,对图像和文本进行隐空间编码。(b)其次,我们以图2所示的方式训练由变压器参数化的UniDiffuser 。

实验结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/18796.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【来不及刷题之】43、最小栈(PriorityQueue)

因为要在常量时间内查询出最小值&#xff0c;所以需要有另外的数据结构维护最小值&#xff0c;很自然地想到了“堆”这个结构&#xff0c;“最小堆”的堆顶元素刚好是最小值因此出栈和入栈的同时也要维护好最小堆 class MinStack {PriorityQueue<Integer> heap;LinkedLi…

Kubernetes service服务的发布 - kube-proxy(负载均衡器)-IPVS

目录 Service Service将内部的pod暴露到外面&#xff0c;让用户可以访问 负载均衡策略&#xff1a; Service 的类型&#xff1a; 案例&#xff1a;Service服务发布案例 扩展&#xff1a;我们在案例再加入一个探针的使用 更改后的my_nginx.yaml文件&#xff1a; 创建Pod&…

Langchain 新手完全指南

Langchain 可能是目前在 AI 领域中最热门的事物之一&#xff0c;仅次于向量数据库。 它是一个框架&#xff0c;用于在大型语言模型上开发应用程序&#xff0c;例如 GPT、LLama、Hugging Face 模型等。 它最初是一个 Python 包&#xff0c;但现在也有一个 TypeScript 版本&…

Linux常用命令——env命令

在线Linux命令查询工具 env 显示系统中已存在的环境变量 补充说明 env命令用于显示系统中已存在的环境变量&#xff0c;以及在定义的环境中执行指令。该命令只使用"-“作为参数选项时&#xff0c;隐藏了选项”-i"的功能。若没有设置任何选项和参数时&#xff0c;…

webpack笔记一

文章目录 什么是webpack安装webpack一、创建配置项二、安装webpack局部安装(推荐)全局安装 三、安装webpack-cli(可选) 核心概念入口(entry)出口(output)loader插件(plugin)模式(mode) 项目实例webpack基本使用 html打包插件&#xff1a;html-webpack-plugin文件拷贝插件&#…

[sqoop]导入数据

一、覆盖导入 例如维度表&#xff0c;每次导入的数据需要覆盖上次导入的数据。 hive-overwrite参数&#xff1a;实现覆盖导入 hive-import参数&#xff1a;表示向hive表导入 hive-table参数&#xff1a;指定目标hive库表 sqoop import \ --connect jdbc:mysql://hadoop1:3…

基于单片机的老人防摔倒的设计与实现

功能介绍 以51单片机作为主控系统&#xff1b;通过LCD1602液晶显示屏显示当前的经纬度及时间的信息&#xff1b;温度传感器采集当前体温&#xff1b;通过GPS接收模块获得当前位置的位置的经度、纬度、时间和高度等信息&#xff1b;通过ADXL345检测老人摔倒的一瞬间重力加速度通…

【opencv之cv::Mat数据深拷贝和浅拷贝探讨】

cv::Mat数据深拷贝和浅拷贝 cv::Mat 拷贝方法实验测试1.matA matSrc2.matB(matSrc)3.matC matSrc.clone()4.matSrc.copyTo(matD) 很多时候写程序除了一个强大的架构&#xff0c;细节也很重要&#xff0c;俗话说的话细节决定成败嘛&#xff0c;在使用cv::Mat做图片处理的时候发…

VSCODE 设置同步network Error 问题

前言 这个问题等解决方法如下&#xff1a; 获取到github以及vscode-auth.github.com的ip&#xff0c;添加到host&#xff0c;随后使用命令行刷新host&#xff0c;重新认证即可 第一步&#xff0c;查看log文件&#xff0c; 打开 vscode&#xff0c;使用快捷指令ctrl(command)…

虹科分享 | 如何基于IO-Link wireless方案实现工厂数据采集和状态监测

数据和数字化是工业4.0变革的关键驱动因素。从整个工厂的传感器获取数据&#xff0c;除了优化制造计划和流程外&#xff0c;还能实现强大的分析和决策。目前&#xff0c;基于数据的应用正在催生更多智能解决方案&#xff0c;以提高制造业的灵活性和敏捷性&#xff0c;进而提高效…

B端原型设计太复杂?看这一篇轻松入门

近年来&#xff0c;B端市场前景展现广阔&#xff0c;B端产品经理也成为了炙手可热的高薪岗位。作为负责管理和推动B端产品开发和生命周期的负责人&#xff0c;B端产品经理在企业市场中发挥着重要作用&#xff0c;因此他们往往也是具备全局能力框架的专业人员。 然而&#xff0…

服务端研发提测模板

test环境分支自测通过 提测邮件标注test环境分支 【xxxxxx需求】服务端研发提测了&#xff0c;快去测试吧!