Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Lumina-T2X 是一个新的内容生成系列模型,统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

相关链接

论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I

论文阅读

摘要

Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。

在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征,并结合了[Nextline]和[NextFrame]令牌等可学习的占位符,Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式,并可以在任何分辨率,宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索,rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性,灵活性和可扩展性,使Lumina-T2X的模型可扩展到高达70亿个参数,并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是,由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT(PIXART-α)的训练计算成本的35%,这表明参数数量显着增加 加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推,高分辨率编辑,生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码,输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架,支持文本到图像的生成,分辨率外推,风格一致生成,合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像,提供优越的分辨率视觉质量和保真度,同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练,LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述,Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较 多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比,在所有分辨率下都具有卓越的视觉质量。

结论

在本文中,我们提出了Lumina-T2X,这是一个统一的框架,旨在将文本说明转换为任意分辨率和持续时间的任何模式,包括图像,视频,3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器(FLAG-DIT),精心设计用于可扩展的条件生成。配备了关键修改,包括绳索,RNSNORM,KQ-NORM和零定位的注意体系结构,[NextLine]和[NextFrame]令牌用于数据表示形式,以及与原点扩散变压器相比,我们的旗帜位从扩散到流匹配公式的转换为稳定性,灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力,该功能表现出卓越的性能和 与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现,我们以各种方式实例化旗杆,并为文本对图像,视频,视频提供统一的食谱 多文章和语音产生。我们证明,该框架不仅可以在任意分辨率下生成逼真的图像或视频任务,例如以无训练的方式推断出外推,高分辨率编辑和组成生成。

总体而言,我们希望我们的尝试,发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图,并成为进一步研究开发有效大型多模式生成模型的新起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/703731.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HL7协议

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.介绍2.传输协议规范2.1. MLLP2.1.1. 数据头定义2.1.2. 转义字符集 2.2. 规范说明2.3. 消息格式说明 3.HL7结构介绍3.1. 患者建档(ADT^A28)…

webpack5零基础入门-14提取css为单独文件

1.背景 Css文件目前被打包到JS文件中,当JS文件加载时,会尝试创建一个style标签来生成样式,这样对于网站来说,会出现闪屏的现象,用户体验不好。我们应该是单独的Css文件,通过link标签来加载性能才好。 2.下…

好烦啊,我真的不想写增删改查了!

大家好,我是程序员鱼皮。 很想吐槽:我真的不想写增删改查这种重复代码了! 大学刚做项目的时候,就在写增删改查,万万没想到 7 年后,还在和增删改查打交道。因为增删改查是任何项目的基础功能,每…

BUUCTF靶场[MISC]荷兰宽带数据泄露、九连环

[MISC]荷兰宽带数据泄露 考点:查看路由器恢复丢失密码的文件 工具:RouterPassView——路由器密码查看工具 工具链接:https://routerpassview.en.lo4d.com/windows RouterPassView是一款老牌的路由器密码查看器,可以一键获取路…

网络安全等级保护在工业控制系统中的应用

工业控制系统(Industrial Control Systems,ICS),是由各种自动化控制组件和实时数据采集、监测的过程控制组件共同构成。其组件包括数据采集与监控系统(SCADA)、分布式控制系统(DCS)、可编程逻辑控制器(PLC)、远程终端(RTU)、智能电子设备(IED),以及确保各…

Linux备份---异地

参考文档:Linux环境实现mysql所在服务器定时同步数据文件到备份服务器(异地容灾备份场景)_mysql异地备份-CSDN博客 通过SSH进行连接: 应用服务器: 通过ssh-keygen -t rsay建立ssh通信的密钥 密钥建立后,…

Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明

Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明 目录 Python 机器学习 基础 之 监督学习 [ 核支持向量机 SVM ] 算法 的简单说明 一、简单介绍 二、监督学习 算法 说明前的 数据集 说明 三、监督学习 之 核支持向量机 1、线性模型与非线性特征 …

VBA 引用从SQL数据库取数据的几个方法

首先,要定义连接的数据集 Set objRec CreateObject("ADODB.Recordset")Set objConn CreateObject("ADODB.Connection")然后在代码中要定义SQL语句,以便获取数据 sqlstr sqlstr " select t1.FBillNo ,t_Item.fname type,t1…

MT3037 新月轩就餐

思路: 此题每道菜的价钱相同,想最小化付的钱即求最小区间长度可以满足“品尝到所有名厨手艺”。 使用双端队列存储元素,队尾不断向后遍历:头->尾 如果队头队尾,则队头往右移一格,直到区间不同元素数m…

使用VMware或VirtualBox安装eNSP Pro并使用CRT连接设备

文章目录 使用Oracle Virtual Box安装eNSP Pro创建虚拟机配置网卡配置带外管理网络 使用VMware Workstation安装eNSP Pro转换文件格式及虚拟磁盘模式配置网卡创建虚拟机配置使用CRT连接管理设备 前一段时间是开放了eNSP Pro的账号权限,但是在写博客时,权…

2024年京东618红包领取口令是什么?2024年618京东红包活动时间是从什么时候开始到几号结束?

2024年京东618红包活动时间 京东618红包活动时间是从2024年5月28日开始,一直持续到6月18日结束。 2024年京东618红包领取方式 在2024年京东618活动时间内,每天都可以打开手机京东APP,输入框搜索红包领取口令「 天降红包882 」,搜…

vue3中实现简繁体转换

由于项目在大陆和台湾同胞同步使用,因此需要实现中文的简繁体转换,实现输入简体,能搜索出简体和繁体的相关内容,输入繁体,也能搜索出简繁体相关内容。忽略简繁体,扩大搜索范围。 引入插件: np…