解读电影级视频生成模型 MovieFactory

 Diffusion Models视频生成-博客汇总

前言:MovieFactory是第一个全自动电影生成模型,可以根据用户输入的文本信息自动扩写剧本,并生成电影级视频。其中针对预训练的图像生成模型与视频模型之间的gap提出了微调方法非常值得借鉴。这篇博客详细解读一下这篇论文《MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images》

目录

贡献概述

方法详解

整体流程

文本扩展

空间微调

时间训练

音频生成

论文和代码

个人感悟


贡献概述

这是第一个全自动电影生成模型,我们的方法使用户能够使用简单的文本输入创建具有平滑转换的字幕电影,产生了仅限于单一质量场景的无声音视频。首先利用 ChatGPT 将用户提供的文本扩展为用于电影生成的详细顺序脚本。然后通过视觉生成和音频检索将脚本在视觉上和声学地带入生活。

通过两阶段过程扩展了预训练的文本到图像扩散模型的能力。第一阶段采用空间微调来弥合预训练图像模型和新的视频数据集之间的差距。第二阶段引入时间学习来捕获物体运动。在音频方面,利用复杂的检索模型来选择和对齐与电影情节和视觉内容相对应的音频元素。

作者自己总结的三点贡献:

  1. 提出了 MovieFactory,这是一个电影生成框架,允许用户通过简单地使用文本输入来创建高清 (3072×1280)、电影风格(超宽格式)和多场景电影以及伴随声音。
  2. 引入了一种两阶段训练策略来处理图像和视频数据集之间的视觉域转移。域感知归一化和额外的空间层使模型能够生成高质量的视觉内容,即使在对质量有限的视频数据集进行训练时。
  3. 展示了在大规模 AI 模型在自动生成电影领域的巨大潜力,为 AI 生成的内容引入了新颖且有前途的应用领域。

方法详解

整体流程

第一步:利用 ChatGPT 将输入文本扩展为顺序详细的脚本。

第二步:视频生成。第一阶段采用空间微调来弥合预训练图像模型和新的视频数据集之间的差距。第二阶段引入时间学习来捕获物体运动。

第三步:配音。用每个脚本检索一个电影片段的音频部分,组合所有并剪辑。

文本扩展

作者用chatgpt来写剧本,使用的prompt是:

"Write a sequence of prompts, using for movie generation for AI. Requirements: 1) each prompt only serves for one scene lasting for about 2 seconds; 2) each prompt contains clear subjects and detailed descriptions; 3) each prompt contains texts like "4K" and "high resolution" for leading high-quality generation; 4) the transition of each scene is very smooth; 5) no other character appears in this movie. The movie is about [User Input]"

空间微调

现有的大规模视频数据集在分辨率和视觉质量方面受到限制,还有的包含水印。而且预训练模型专门针对生成方形视觉内容进行了优化,因为它是在方形图像(高度:宽度=11)上训练的。尽管分辨率的微小调整对视觉内容和质量的影响可以忽略不计,但纵横比的显着变化(例如从 1:1 过渡到 2.35:1)可能会导致生成不稳定,其特征是内容重影和重复。Video LDM表明,使用低质量的视频数据来微调预先训练的层将不可避免地损害生成性能。

作者固定原始模型并插入额外的层以适应分布变化。在 U-Net 块中每个 Up 或 Down 块之前添加了一个修改后的 ResBlk 和注意力层。在修改后的 ResBlk 中添加了一个可学习的域感知归一化来指定和拟合不同的空间分布。

这种设计有两个优点:

        1)可以完全保留预训练中的整个知识,因此仍然可以生成不包含在视频数据集中的内容和场景;

        2)可以在新模块中拟合多个分布,解决了下一个时间训练中的分布外问题,同时保持同时生成高质量的图片的能力。

时间训练

使模型在模型能够在目标分布中生成图像后学习物体的运动。继之前的工作之后,我们在每个预训练的空间层之后添加时间层。具体来说在每个预训练的空间 ResBlk 之后添加了一个具有 1D 卷积的时间 ResBlk。类似地在每个空间注意力之后添加了一个时间注意力,它与空间注意力共享相同的超参数。与预训练的空间注意不同,在Video LDM的基础上,将sinusoidal embeddings添加到特征中作为时间序列的位置编码。

音频生成

不懂音频,略。

论文和代码

代码无

https://arxiv.org/abs/2306.07257

个人感悟

1、在用chatgpt进行剧本创作那里,我在其他modelscope agent看到过类似的功能,不过那里的实现使用了qwen微调后实现的。作者在本文中并没有写微调相关的部分。

2、空间微调那里,为什么不用lora或者直接用adapter呢?作者改了一个类似adapter思想的东西,让人感觉有点……多少也引用一下喂

3、解决等长宽比到不同长宽比的地方没有看到更详细的解释,也没代码,这块比较疑惑。如何在这两种不同长宽比的数据集上进行微调?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/520304.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

匈牙利算法

匈牙利算法:是一种在多项式时间内求解任务分配问题的组合优化算法,并推动了后来的原始对偶方法 时间复杂度:O(nm) 适用场景:二分图的最大匹配 核心思想:增广路径,即当左边集合的点1匹配右边的点2为已匹配…

IPv6扩展头(四)——分片头

分片头部(Fragment Header)用于IPv6源节点向目的节点发送一个大于路径MTU的数据报。 一、优势 IPv6 分片头具有多种优势,可提高网络效率,包括减少数据包延迟和减少网络拥塞。使用 IPv6 分片头,数据包在源处而不是中间…

光谱整形1

华为张德江:下一代光传送网将走向400G80波WDM系统_通信世界网 (cww.net.cn) 张德江指出,400G WDM系统具有三大基本特征:支持400G80波,单纤32T超大容量,传输距离与100G相当;支持32维以上的光交叉&#xff1…

Python实例☞数据类型及运算符案例

实例一: ❶要求☞从键盘获取一个4位整数,并分别输出个、十、百、千位 ❷程序代码☞ ①第一种方法 print(请输入一个4位整数:) xeval(input()) print(个位数为:,x%10) print(十位数为:,(x//10)%10) print(百位数为&am…

4.1k star,官方出品的redis桌面管理工具——redislnsight

导航 令人抓狂的大key加载RedisInsight 简介RedisInsight的亮点GitHub 地址安装和使用RedisInsight 下载安装 使用RedisInsight redis数据库可视化直观的CLI(Command-Line Interface)日志分析和命令分析 结语参考 令人抓狂的大key加载 工欲善其事必先利…

利用GPT开发应用003:GPT分词和预测

文章目录 一、概率问题二、令牌(分词)三、预测 一、概率问题 像 GPT 这样的大型语言模型接收一个提示,并返回通常在上下文中有意义的输出。例如,提示可以是“今天天气很好,所以我决定”(“The weather is n…

检测螺栓扭矩的方法有哪些——SunTorque智能扭矩系统

螺栓扭矩的检测是确保螺栓连接紧固程度和安全性的重要环节。正确的扭矩检测能够预防螺栓松动、断裂等潜在风险,从而保障设备和结构的稳定运行。SunTorque智能扭矩系统接下来将详细介绍螺栓扭矩的检测方法。 螺栓扭矩的检测是确保螺栓连接紧固程度和安全性的重要环节…

什么是VR全息投影技术|元宇宙文旅|VR设备购买

VR全息投影技术是一种结合了虚拟现实(VR)和全息投影技术的创新技术,旨在创造出更加沉浸式和真实感的体验。 在这种技术中,用户可以通过戴上特殊的头戴式显示器(如VR头显)进入虚拟现实世界,同时通…

Spark Core

Spark Core 一、Spark RDD RDD概述 1.RDD基础 2.RDD源代码描述 3.RDD特性 4.Spark宽窄依赖 RDD创建 在驱动器中创建RDD 1.parallelize 读取外部数据集创建RDD 2.textFile RDD操作 缓存rdd到内存 1.RDD转化操作 2.常见的转化操作 3.RDD行动操作 4.常见的行动操作 Spark…

HTTP协议(请求方式,响应方式,请求行、头、体,状态码)是热点面试题【详解】

目录 1. HTTP简介 1.介绍 2.浏览器抓包 3.特点 2. HTTP请求 1.HTTP请求的格式 2.HTTP请求方式 3.GET方式的请求示例 请求行 请求头 请求体 4.POST方式的请求示例 请求行 请求头 请求体 GET和POST的区别 5.HTTP响应 1.HTTP响应的格式 2 常见响应头 3 响应…

企业财务分析该怎么做?重点分析哪些财务指标?

在企业经营管理的过程中,财务分析是评估当前企业或特定部门财务状况和绩效的过程,这一过程通常涉及对财务报表(如资产负债表、利润表和现金流量表)进行定量和定性的评估,以便为盈利能力、偿债能力、现金流动性和资金稳…

【计算机系统】2.进程管理

【计算机系统】2.进程管理 这个章节十分的重要,作业也要好好做,因为我学的是后端,学计算机进程的处理对于搞并发来说十分有用。 提出问题 6、试从动态性、并发性和独立性上比较进程和程序。19、为什么要在OS中引入线程?A.请用信号量解决以下…