北大字节联合发布视觉自动回归建模(VAR):通过下一代预测生成可扩展的图像

北大和字节发布一个新的图像生成框架VAR。首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。

同时展现出了与大语言模型观察到的类似Scaling laws的规律。在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

相关链接

项目地址:https://github.com/FoundationVision/VAR

Demo地址:https://var.vision

模型下载地址:https://huggingface.co/FoundationVision/var

VAR简介

视觉自回归建模(VAR)是一种新的视觉生成范式,它将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与标准光栅扫描“下一个令牌”不同预言”。这种简单、直观的方法允许自回归(AR)转换器快速学习视觉分布并很好地概括。

自回归视觉生成的新范式✨:

视觉自回归建模(VAR)将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”,与标准光栅扫描“下一个标记预测”不同。

GPT式自回归模型首次超越扩散模型:

该图研究了不同模型在ImageNet-256条件生成基准上的缩放行为。半径表示模型尺寸。轴采用对数刻度。 VAR首次使自回归模型在图像生成方面在多个维度上超越了扩散变换器(DiT):图像质量、推理速度、数据效率和可扩展性。

发现VAR Transformer中的幂律缩放定律

零样本泛化能力

提供模型下载地址

实验

在 ImageNet-256×256基准上,VAR通过将Fréchet起始距离(FID)从5.20提高到1.80、起始分数(IS)从280.3提高到356.4,显着提高了其 AR 基线,推理速度提高了24倍。VAR使得GPT式自回归模型在FID分数、IS分数、推理速度和可扩展性方面首先超越了扩散变压器(DiT)。

Demo生图效果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/631014.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PLC怎么接入互联网

几十年来,PLC都是用于现场设备的自动化控制。随着移动互联网技术的发展,移动办公的便捷性使PLC联网进行远程监控操作的需求越来越多。那PLC怎么接入互联网呢? PLC的通讯基本都是基于现场的通讯,无论是RS485,RS232还是 TCP协议&am…

泛微 E-Office 9.5版本存在ajax.php接口任意文件上传漏洞

声明: 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 简介 泛微 E-Office 9.5版本存在代码问题漏洞&#xff0c…

第二部分 Python提高—GUI图形用户界面编程(七)

菜单组件 文章目录 主菜单 GUI 程序通常都有菜单,方便用户的交互。我们一般将菜单分为两种:主菜单和快捷菜单(上下文菜单)。主菜单通常位于GUI 程序上方,通过鼠标右键单击某个组件对象而弹出的菜单,一般是与该组件相关的操作。 主菜单 主菜…

CUDA编程---线程束洗牌指令

从Kepler系列的GPU(计算能力为3.0或更高)开始,洗牌指令(shuffle instruction)作为一种机制被加入其中,只要两个线程在相同的线程束中,那么就允许这两个线程直接读取另一个线程的寄存器。 洗牌指…

太阳能路灯光伏板的朝向设计问题

题目:太阳能路灯光伏板的朝向设计问题 难度对标几乎每一年的国赛A题。 QQ群:592697532 公众号:川川菜鸟 文章目录 背景问题问题一问题二问题三 题目解读相关公式(必备)太阳辐射的计算光伏板接收的辐射光学效率大 气透…

Linux 系统下的进程间通信 IPC 入门 「中」

以下内容为本人的学习笔记,如需要转载,请声明原文链接 微信公众号「ENG八戒」https://mp.weixin.qq.com/s/39XQUQtGC3Ow-0s0JKWnog 信号量 信号量一般用于配合共享内存的数据传输,共享内存被多个进程之间共享访问,各个进程对共享…

大型网站系统架构演化实例_3.使用服务集群改善网站并发处理能力

1.使用服务集群改善网站并发处理能力 使用集群是网站解决高并发、海量数据问题的常用手段。当一台服务器的处理能力、存储空间不足时,不要企图去更换更强大的服务器,对大型网站而言,不管多么强大的服务器,对大型网站而言&…

【Linux】—管理、设置防火墙规则(firewalld详解)

【Linux】—管理、设置防火墙规则(firewalld详解) 一、firewalld1.1 服务的启动、停止1.2 查看和设置默认区域1.3 使用firewalld进行规则配置1.4 重新加载防火墙配置1.5 查询已开放的端口、已允许的服务 💖The Begin💖点点关注&am…

【k8s】:kubectl 命令设置简写启用自动补全功能

【k8s】:kubectl 命令设置简写&启用自动补全功能 1、设置kubectl命令简写2、启用kubectl自动补全功能 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes(K8s)是一个强大的容器编排平台&#…

【WP】猿人学4 雪碧图、样式干扰

https://match.yuanrenxue.cn/match/4 探索 首先打开Fiddler,发现每个包的除了page参数一样,然后重放攻击可以实现,尝试py复现 Python可以正常拿到数据,这题不考请求,这题的难点原来在于数据的加密,这些数字…

数据库设计的三范式

简单来说就是:原子性、唯一性、独立性 后一范式都是在前一范式已经满足的情况进行附加的内容 第一范式(1NF):原子性 存储的数据应不可再分。 不满足原子性: 满足原子性: 第二范式(2NF&#xf…

Hadoop大数据处理技术-Linux相关命令

​7.Linux常用命令 1)Windows中的dir:列出当前目录下所有的文件和目录 2)cd:改变当前目录 cd命令并不能直接实现这种跳跃转换目录的功能 它只能让你在当前目录和其子目录之间来回切换 就像在一张平面地图上移动一样 如果想跨目录…