Sora技术报告——Video generation models as world simulators

文章目录

  • 1. 视频生成模型,可以视为一个世界模拟器
  • 2. 技术内容
    • 2.1 将可视数据转换成patches
    • 2.2 视频压缩网络
    • 2.3 Spacetime Latent Patches
    • 2.4 Scaling transformers 用于视频生成
    • 2.5 可变的持续时间,分辨率,宽高比
    • 2.6 抽样的灵活性
    • 2.7 改进框架和构图
    • 2.8 为视频生成字幕,作为训练集
  • 3. 应用
    • 3.1 动画DALL·E图像 (输入图片输出视频)
    • 3.2 扩展生成视频
    • 3.3 Video-to-video编辑 (改变视频风格或场景)
    • 3.4 拼接视频
    • 3.5 图像生成功能
  • 4. 新兴的模拟能力
    • 4.1 3d一致性
    • 4.2 长程相干性和对象持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界
  • 5. 讨论
  • 6. 参考文献
  • 第三方的猜想与讨论

欢迎关注微信公众号InfiniReach,这里有更多AI大模型的前沿算法与工程优化方法分享
请添加图片描述

1. 视频生成模型,可以视为一个世界模拟器

我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型

我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

本技术报告侧重于

  • 我们将所有类型的视觉数据转换为统一表示的方法,从而能够大规模训练生成模型,
  • 对Sora的能力和局限性进行定性评估。

模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上,在较短的视频上,或者在固定大小的视频上。

Sora是一个通用的视觉数据模型,它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成一分钟的高清视频。

2. 技术内容

2.1 将可视数据转换成patches

我们从大型语言模型中获得灵感,这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token,这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。

llm有文本令牌,而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现,对于在不同类型的视频和图像上训练生成模型,patch是一种高度可扩展的有效表示。
在这里插入图片描述
在高层次上,我们首先将视频压缩到一个较低维度的潜在空间[19],然后将其分解为spacetime patches,从而将视频转化为patches。

2.2 视频压缩网络

我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在映射回像素空间。

2.3 Spacetime Latent Patches

给定一个压缩的输入视频,我们提取一个spacetime patches序列,作为transformer tokens。这个方案也适用于图像,因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。

在推理时,我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。

2.4 Scaling transformers 用于视频生成

Sora为扩散模型[21,22,23,24,25],给定输入的噪声块(以及文本提示之类的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性,包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29]
在这里插入图片描述
在这项工作中,我们发现diffusion transformers也可以有效地缩放为视频模型。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

2.5 可变的持续时间,分辨率,宽高比

过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸

例如,4秒的视频在256x256分辨率。

但是我们发现在原始大小的数据上进行训练提供了几个好处。

2.6 抽样的灵活性

Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。

2.7 改进框架和构图

我们从经验上发现,在视频的原始长宽比上进行训练可以改善构图和框架。

我们将Sora与我们模型的一个版本进行比较,该版本将所有训练视频裁剪为方形,这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右)的视频有改进的帧。

左图 右图

在这里插入图片描述

2.8 为视频生成字幕,作为训练集

训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。

我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model),然后使用它为我们训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。
在这里插入图片描述

3. 应用

上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示,比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频,动画静态图像,向前或向后扩展视频等。

3.1 动画DALL·E图像 (输入图片输出视频)

Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。
在这里插入图片描述

展示略

3.2 扩展生成视频

Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

我们可以使用这种方法来向前和向后扩展视频,以产生无缝的无限循环。

3.3 Video-to-video编辑 (改变视频风格或场景)

扩散模型已经启用了大量的方法来根据文本提示 编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。
在这里插入图片描述

3.4 拼接视频

我们还可以使用Sora在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。
在这里插入图片描述
在这里插入图片描述

3.5 图像生成功能

Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。

在这里插入图片描述

4. 新兴的模拟能力

我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。

4.1 3d一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 长程相干性和对象持久性

视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,我们的模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

4.3 与世界互动

Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。
在这里插入图片描述

4.4 模拟数字世界

Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。

这些功能表明,视频模型的持续缩放(continued scaling of video models)是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

5. 讨论

作为一个模拟器,Sora目前显示出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他的交互,比如吃东西,并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式,例如在长时间样本中发展的不一致性或对象的自发出现

我们相信,Sora今天所拥有的能力表明,视频模型的持续缩放是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。

6. 参考文献

[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).

[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.

[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.

[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.

[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.

[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.

[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.

[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).

第三方的猜想与讨论

施工中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/473875.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】Framebuffer 应用

# 前置知识 LCD 操作原理 在 Linux 系统中通过 Framebuffer 驱动程序来控制 LCD。 Frame 是帧的意思, buffer 是缓冲的意思,这意味着 Framebuffer 就是一块内存,里面保存着一帧图像。 Framebuffer 中保存着一帧图像的每一个像素颜色值&…

4核8G服务器支持多少人同时在线访问?

腾讯云4核8G服务器支持多少人在线访问?支持25人同时访问。实际上程序效率不同支持人数在线人数不同,公网带宽也是影响4核8G服务器并发数的一大因素,假设公网带宽太小,流量直接卡在入口,4核8G配置的CPU内存也会造成计算…

Unity类银河恶魔城学习记录7-7 P73 Setting sword type源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili Sword_Skill_Controller.cs using System.Collections; using System.Col…

基于SringBoot+Vue的大学生社团管理系统

末尾获取源码作者介绍:大家好,我是墨韵,本人4年开发经验,专注定制项目开发 更多项目:CSDN主页YAML墨韵 学如逆水行舟,不进则退。学习如赶路,不能慢一步。 目录 一、项目简介 1.1 研究背景 1.…

C语言之日历问题

一、代码展示 #include<stdio.h> int leapyear(int year)//判断是不是闰年函数 {if (year % 4 0 && year % 100 ! 0 || year % 400 0)return 1;elsereturn 0; } int days(int year, int month, int* day)//判断一个月有几天 {if (month ! 2)return day[month…

如何在JavaScript中使用大于和小于运算符

在你的 JavaScript 程序中&#xff0c;你经常需要比较两个值&#xff0c;以确定一个是否大于另一个或小于另一个。这就是大于和小于运算符派上用场的地方。 在本文中&#xff0c;我们将通过代码示例更详细地介绍如何使用这些运算符。 &#xff08;本文内容参考&#xff1a;ja…

Acwing---875. 快速幂

快速幂 1.题目2.基本思想3.代码实现 1.题目 给定 n n n 组 a i ai ai, b i bi bi, p i pi pi&#xff0c;对于每组数据&#xff0c;求出 abii m o d mod mod pi 的值。 输入格式 第一行包含整数 n n n。 接下来 n n n 行&#xff0c;每行包含三个整数 a i ai ai, b i …

Leetcode-102. 二叉树的层序遍历

今天的情人节和树过了...... 题目&#xff1a; 给你二叉树的根节点 root &#xff0c;返回其节点值的 层序遍历 。 &#xff08;即逐层地&#xff0c;从左到右访问所有节点&#xff09;。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;[…

【机器学习笔记】 9 集成学习

集成学习方法概述 Bagging 从训练集中进行子抽样组成每个基模型所需要的子训练集&#xff0c;对所有基模型预测的结果进行综合产生最终的预测结果&#xff1a; 假设一个班级每个人的成绩都不太好&#xff0c;每个人单独做的考卷分数都不高&#xff0c;但每个人都把自己会做的…

Atmel ATSHA204应用总结

1 ACES软件安装 Atmel Crypto Evaluation Studio (ACES) https://www.microchip.com/DevelopmentTools/ProductDetails/PartNO/Atmel%20Crypto%20%20Studio%20(ACES) 2 基本概念 ACES CE&#xff1a;Atmel Crypto Evalution Studio Configuration Environment&#xff08;基于加…

L2-021 点赞狂魔

一、题目 二、解题思路 统计每个人点赞的不同标签的数量&#xff1a;每行列出一位用户的点赞标签&#xff0c;这些标签可能有重复的&#xff0c;所以将用户的点赞标签存放在 set 里&#xff0c;通过 size() 函数获得点赞的不同标签的数量&#xff1b;结构体包括用户的信息&…

Uniapp真机调试没有检测到设备,请插入设备或启动模拟器后刷新再试

最近用HbuilderX开发遇到了一个问题&#xff0c;之前插上手机就能调试&#xff0c;但最近再写app的时候&#xff0c;插上手机&#xff0c;也打开了开发者模式&#xff0c;但就是检测不到设备。 后来发现是要打开MIDI模式。vivo手机路径为&#xff1a;系统管理与升级->开发者…