Stable Diffusion的结构要被淘汰了吗?详细解读谷歌最新大杀器VideoPoet

Diffusion Models视频生成-博客汇总

前言:视频生成领域长期被Stable Diffusion统治,大部分的方式都是在预训练的图片Stable Diffusion的基础上加入时间层,学习动态信息。虽然有CoDi《【NeurIPS 2023】多模态联合视频生成大模型CoDi》等模型尝试过突破这一结构的局限,但是都没有对业界带来特别有影响力的工作。最近谷歌出手了,拿出了Decoder-Only结构视频生成模型,堪称王炸!华为曾经出过Decoder-Only的模型(还被群嘲过),但是事实逐渐证明这种能够把文本、音频、视频等各种模态通过编码成tokens组合在一起是多么具有想象力的事情!明年的ChatGPT-5也会是这样的形态吗?

目录

贡献概述

方法详解

整体结构

主要流程

tokenizer联合优化

图像和视频联合tokenizer优化方法

长视频生成

音频tokenizer

模型backbone

超分模块

下游任务实现

两阶段预训练策略

微调阶段

论文和代码

个人感悟


贡献概述

VideoPoet 采用仅解码器的转换器架构来处理多模态输入:包括图像、视频、文本和音频。训练方法遵循大型语言模型 (LLM),包括两个阶段:预训练和微调。在预训练期间,VideoPoet 在自回归 Transformer 框架内结合了多模态生成目标的混合,预训练的LLM作为基础,可以适应一系列视频生成任务。

作者自己概括的三点贡献:

(1)一种专门针对视频生成任务训练大型语言模型 (LLM) 的简单方法,利用无缝结合文本配对和不配对视频数据的标记化视频和音频数据。

(2)一种超分辨率方法,它使用具有高效窗口局部注意的双向转换器来增加潜在token空间中的视频分辨率。

(3)展示 LLM 竞争性能的评估和演示,尤其是在产生现实和有趣的运动方面。

方法详解

整体结构

VideoPoet 采用仅解码器的 LLM 架构 ,将图像、视频和音频模态作为离散token,每个标记都由它们各自的tokenizer产生。

VideoPoet将所有模态编码到离散标记空间中,以便可以直接使用大型语言模型架构进行视频生成。
图中的表示方法:(1)特定的token用<>表示。(2)模态不可知标记用深红色表示。(3)文本相关组件用蓝色表示。(4)视觉相关组件用黄色表示。(5)音频相关组件用绿色表示。(6)浅黄色布局的左侧部分表示双向前缀输入。(7)较暗的红色的右侧部分表示具有因果注意力的自回归生成输出。

主要流程

模型由三个主要组件组成:(1)特定于模态的标记器(2)语言模型主干(3)超分辨率模块。

总体流程:分词器将输入数据(即图像像素、视频帧和音频波形)映射到统一词汇表中的离散token。使用光栅扫描顺序将视觉和音频标记展平为一系列整数。LLM接受图像、视频和音频标记作为输入以及文本嵌入,负责生成多任务和多模态建模。如图 3 所示,VideoPoet 在文本嵌入、视觉标记和音频标记方面的条件,并自回归预测视觉和音频标记。随后,超分辨率模块提高了视频输出的分辨率,同时改进了视觉质量的图像细节。

tokenizer联合优化

使用MAGVIT-v2 tokenizer进行联合图像和视频标记化,使用SoundStream音频tokenizer。这些视觉和音频标记以统一的词汇表示。
统一词汇表的构建:初始 256 个代码保留为特殊标记和任务提示。随后,将接下来的 262,144 个代码分配给图像和视频标记化。接下来是 4,096 个音频代码。与从头开始训练文本标记相比,文本模态由文本embedding表示,以获得更好的性能。

图像和视频联合tokenizer优化方法

视频剪辑被编码和量化成一系列整数,解码器将它们映射回像素空间。作为token空间和像素空间之间的桥梁,这种视觉标记器的性能设置了视频生成质量的上限。同时,压缩比决定了LLM的序列长度,以实现有效和高效的任务设置。
具体来说:将视频编码成17帧、8fps、2.125秒、128*128分辨率的视频,然后压平到1280tokens,2^8大小到词汇表。
对于手机端的短视频:将视频压缩为128×224分辨率的肖像纵横比,产生(5,28,16)或2240个令牌的潜在形状。当评估协议在 16 帧上时,丢弃生成的最后一帧来制作 16 帧视频。

长视频生成

MAGVIT-v2  tokenizer强制执行因果时间依赖性,其中帧在没有任何来自未来帧的信息的情况下进行编码。这种因果属性简化了帧预测任务的设置,并支持任意长视频的标记化和生成。

音频tokenizer

使用预训练的 SoundStream tokenizer对音频片段进行标记。将 2.1125 秒的音频以在四个级别的残差向量量化器 (RVQ) 处产生 106 个潜在帧。为了提高音频生成性能,在展平之前转置剪辑,以便模型在移动到更细粒度的级别之前在每个 RVQ 粒度级别预测完整的音频剪辑。最后,每个 RVQ 级别都有一个不相交的词汇表,每个级别包含 1,024 个代码。这导致组合的音频词汇量为 4,096 个代码。

模型backbone

将上述不同模态的数据都展平成tokens之后,使用具有仅解码器架构的前缀语言模型作为骨干来完成生成任务。通过构建不同的输入标记模式来在训练期间输出标记,可以控制模型能够执行的任务类型。

超分模块

直接用自回归的方法生成高分辨率视频不现实,还是用非自回归的方法实现了超分模块。

下游任务实现

VideoPoet 通过使用大量混合多模态目标进行训练来展示通用生成视频建模。目标协同工作,以便可以链接单个任务,展示了超越任何单个任务的零样本能力。对于每个任务,定义了一个前缀输入和输出,使得模型以前缀为条件,只将损失应用于输出。

两阶段预训练策略

训练策略:在有或没有文本或音频的图像-文本对和视频上进行训练。文本和声音都是嘈杂的,可能与视觉内容不匹配。该模型在所有模式中在大约 2万亿 个令牌上进行训练。

增加了采样权重以从 90% 的时间的图像数据样本中采样,10% 的视频用于前 25% 的训练迭代。然后切换到视频 90% 和图像 10% 的训练,用于其余的训练迭代。

微调阶段

微调阶段的作用:微调模型减轻了解码崩溃的问题,其特征是将预测降级为重复标记。这种改进不仅增强了模型的输出多样性,而且可以提高无分类器指导的规模,从而提高了质量的整体增强。此外还微调预训练模型以执行视频到音频的生成。

论文和代码

无代码

https://arxiv.org/abs/2312.14125

个人感悟

1、raster scan ordering是什么?

2、没有说清楚是如何做到animating 和视频延展的,因为这个任务的基本要求是视频中的一部分元素是固定不能改变的。如何做到确定tokens中与视频中对应的元素不变呢?视频延展的时候如何做到分辨率对齐的问题?

3、以后的大模型算法工程师会趋于统一?CV和NLP终将大一统?最大的个人感悟是AI焦虑症更加严重了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/461073.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7下docker搭建咖啡壶Chemex固定资产管理系统(亲测可用)

咖啡壶Chemex固定资产管理系统比较适用于一些小型公司/初创公司IT人员管理IT类资产。 版本要求&#xff1a; PHP&#xff1a;大于8.1 Mysql&#xff1a;建议8.0 docker&#xff1a;推荐安装1.10.0以上版本客户端 Docker Compose: 推荐安装大于v2.20.2 Nginx&#xff1a;推荐安装…

WPF是不是垂垂老矣啦?平替它的框架还有哪些

WPF&#xff08;Windows Presentation Foundation&#xff09;是微软推出的一种用于创建 Windows 应用程序的用户界面框架。WPF最初是在2006年11月推出的&#xff0c;它是.NET Framework 3.0的一部分&#xff0c;为开发人员提供了一种基于 XAML 的方式来构建丰富的用户界面。 W…

Unity学习笔记(零基础到就业)|Chapter02:C#基础

Unity学习笔记&#xff08;零基础到就业&#xff09;&#xff5c;Chapter02:C#基础 前言一、复杂数据&#xff08;变量&#xff09;类型part01&#xff1a;枚举数组1.特点2.枚举&#xff08;1&#xff09;基本概念&#xff08;2&#xff09;申明枚举变量&#xff08;3&#xff…

无损音乐下载,最新音乐下载,mp3格式音乐下载,一键下载mp3格式音乐,我只用这个软件,歌曲资源丰富,全网音乐免费下载,稳定运行,告别收费

一、软件简介 现在很多支持一键下载mp3音乐/无损音质音乐的音乐播放器通常都是解析接口套了一个壳&#xff0c;一旦解析接口失效&#xff0c;软件就不能下载音乐了&#xff0c;因此一个稳定的解析接口是这类软件最大的保障。本次小编推荐的音乐下载软件接口非常稳定&#xff0…

ChatGPT高效提问—prompt常见用法(续篇四)

ChatGPT高效提问—prompt常见用法&#xff08;续篇四&#xff09; 1.1 知识生成 ​ 知识生成是指使用自然语言处理技术&#xff0c;通过ChatGPT等AI模型生成与特定主题相关的知识、文本或回答。在知识生成过程中&#xff0c;模型接收prompt输入的问题、指令或上下文信息&…

ubuntu22.04@laptop OpenCV Get Started: 005_rotate_and_translate_image

ubuntu22.04laptop OpenCV Get Started: 005_rotate_and_translate_image 1. 源由2. translate/rotate应用Demo3 translate_image3.1 C应用Demo3.2 Python应用Demo3.3 平移图像过程 4. rotate_image4.1 C应用Demo4.2 Python应用Demo4.3 旋转图像过程 5. 总结6. 参考资料 1. 源由…

数字IC实践项目(9)— Tang Nano 20K: I2C OLED Driver

Tang Nano 20K: I2C OLED Driver 写在前面的话硬件模块RTL电路和相关资源报告SSD1306 OLED 驱动芯片SSD1306 I2C协议接口OLED 驱动模块RTL综合实现 总结 写在前面的话 之前在逛淘宝的时候偶然发现了Tang Nano 20K&#xff0c;十分感慨国产FPGA替代方案的进步之快&#xff1b;被…

【漏洞复现】多语言药房管理系统MPMS文件上传漏洞

Nx01 产品简介 多语言药房管理系统 (MPMS) 是用 PHP 和 MySQL 开发的, 该软件的主要目的是在药房和客户之间提供一套接口&#xff0c;客户是该软件的主要用户。该软件有助于为药房业务创建一个综合数据库&#xff0c;并根据到期、产品等各种参数提供各种报告。 Nx02 漏洞描述 …

一条 SQL 更新语句是如何执行的?

之前你可能经常听 DBA 同事说&#xff0c;MySQL 可以恢复到半个月内任意一秒的状态&#xff0c;惊叹的同时&#xff0c;你是不是心中也会不免会好奇&#xff0c;这是怎样做到的呢&#xff1f; 我们先从一条更新语句讲起&#xff0c;首先创建一个表&#xff0c;这个表有一个主键…

ubuntu22.04安装部署03: 设置root密码

一、前言 ubuntu22.04 安装完成以后&#xff0c;默认root用户是没有设置密码的&#xff0c;需要手动设置。具体的设置过程如下文内容所示&#xff1a; 相关文件&#xff1a; 《ubuntu22.04装部署01&#xff1a;禁用内核更新》 《ubuntu22.04装部署02&#xff1a;禁用显卡更…

MySQL数据库⑥_内置函数(日期函数+字符串函数+数学函数等)

目录 1. 日期函数 2. 字符串函数 3. 数学函数 4. 其它函数 本篇完。 1. 日期函数 MySQL常用的日期函数如下&#xff1a; 函数名称描述current_date()获取当前日期current_time()获取当前时间current_timestamp()获取当前时间戳now()获取当前日期时间date(datetime)获取d…

了解海外云手机的多种功能

随着社会的高度发展&#xff0c;海外云手机成为商家不可或缺的工具&#xff0c;为企业出海提供了便利的解决方案。然而&#xff0c;谈及海外云手机&#xff0c;很多人仍不了解其强大功能。究竟海外云手机有哪些功能&#xff0c;可以为我们做些什么呢&#xff1f; 由于国内电商竞…