全面解读视频生成模型Sora

2024年2月15日,OpenAI在其官网发布了《Video generation models as world simulators》的报告,该报告提出了作为世界模拟器的视频生成模型Sora

OpenAI对Sora介绍如下:

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios.
We leverage a transformer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

OpenAI利用视频数据对生成模型进行大规模训练。通过一种transformer架构对视频的时空序列包和图像潜在编码进行操作,在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型Sora。

目前,Sora已经能够生成最长一分钟的高保真视频,OpenAI也野心勃勃的提出:我们有望构建出能够模拟物理世界的通用模拟器

1. 主要看点

看点一:60s超长长度

首先感受下Sora生成的一分钟视频:

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

openAI sora01

该视频一镜到底,主体人物稳定,背景真实,缝切流畅,可以看出Sora能够根据用户提供的文本描述,生成符合用户需要的、高品质、60S视频。

看点二:语言逻辑与物理规律

对于文生视频技术,在充分语义理解的基础上,关键是要生成符合逻辑、时间连续的视频。既要符合语义逻辑又要符合物理规律,并且时间连贯的表现出来。

openAI sora02

之前的视频生成用的都是Diffusion,它把视频看作多个真实图片的组合,并未掌握真正的物理规律。

Sora把LLM和Diffusion结合,同时具备了理解世界和模拟世界的能力。

看点三:世界模型

OpenAI雄心勃勃的提出:

Simulating digital worlds. Sora is also able to simulate artificial processes–one example is video games. Sora can simultaneously control the player in Minecraft with a basic policy while also rendering the world and its dynamics in high fidelity. These capabilities can be elicited zero-shot by prompting Sora with captions mentioning “Minecraft.”

These capabilities suggest that continued scaling of video models is a promising path towards the development of highly-capable simulators of the physical and digital world, and the objects, animals and people that live within them.

视频模型的持续扩展为模拟物理世界提供了一条充满希望的道路。
通过模拟生活在这些世界中的物体、动物和人等实体,我们可以更深入地理解现实世界的运行规律,并开发出更加逼真、自然的视频生成技术。

2. 核心技术

(1)将视觉数据转化为 patchs

在这里插入图片描述

在可视数据的处理上借鉴了大语言模型的成功经验,这些模型通过对互联网规模的数据进行训练,获得了强大的通用能力。同样,我们考虑如何将这种优势引入到可视数据的生成式模型中。

大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来,而Sora则通过视觉包(patchs)实现了类似的效果。我们发现,对于不同类型的视频和图像,包是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。

在更高层次上,我们首先将视频压缩到一个低维度的潜在空间:这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。

(2)视频压缩网络(Video compression network)

我们训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,我们还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或图像。

(3)时空包(Spacetime Latent Patches)

当给定一个压缩后的输入视频时,我们会从中提取出一系列的时空包,这些包被用作转换token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以图像也可以看作是单帧的视频。通过这种基于包的表示方式,Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段,我们只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。

(4)用于视频生成的缩放Transformers

在这里插入图片描述

Sora是一个扩散模型(diffusion transformer),它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的“干净”包。重要的是,Sora是一个基于扩散的转换器模型,这种模型已经在多个领域展现了显著的扩展性,包括语言建模、计算机视觉以及图像生成等领域。

3. 未来思考

(1)大佬如何看

马斯克的前女友格莱姆斯发布了一连串帖子,讨论这项新技术对电影以及更广泛的艺术创作的影响。马斯克在其中一条帖子下回应称:“AI增强的人类将在未来几年里创造出最好的作品。”加粗样式

英伟达人工智能研究院Jim Fan表示“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。” 言外之意,AI已经可以读懂物理规律。
在这里插入图片描述

(2)主要影响

视频创作行业规则将被永远的改变了,

生成式视频也意味着虚假信息会真到无以复加。

(3)哲学思考

句子是实在的图像;因为当我理解一个句子,我就知道它所表述的情况,而且无须向我解释其意义,我就理解这个句子。
—— 《逻辑哲学论》(维特根斯坦)

语言使智人能有效传递信息,通力合作,不断完成物理世界的任务,最终成为世界主人。

因此,语言本身就是世界模型。

总之
好好思考
把话说好
剩下的
交给AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479697.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[力扣 Hot100]Day30 两两交换链表中的节点

题目描述 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 出处 思路 前两个结点先偷一手用交换val做,从链表第1…

智慧社区管理系统:构建未来的生活模式

在这个信息化、智能化的时代,我们期待的不再是简单的居住空间,而是一个集安全、便捷、舒适、环保于一体的智能化社区。为此,我们推出了全新的智慧社区管理系统,旨在将先进的科技力量引入社区管理,为居民提供更优质的生…

[word] word正反面打印应该怎么设置呢? #知识分享#学习方法#职场发展

word正反面打印应该怎么设置呢? word文档打印时,如果页数比较多,出于格式要求或为了节省纸张,通常需要正反面打印,那怎么操作正反双面打印呢?通常有两种方法打印。 1、选择“打印”对话框底部的“打印”下…

力扣145 二叉树的后序遍历 Java版本

文章目录 题目描述递归解法代码 非递归解法思路代码 题目描述 给你一棵二叉树的根节点 root ,返回其节点值的 后序遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[3,2,1] 示例 2: 输入:root [] 输出…

性能测试、负载测试、压力测试、稳定性测试简单区分

是一个总称,可细分为性能测试、负载测试、压力测试、稳定性测试。 性能测试 以系统设计初期规划的性能指标为预期目标,对系统不断施加压力,验证系统在资源可接受范围内,是否能达到性能瓶颈。 关键词提取理解 有性能指标&#…

0成本部署github前端项目流程

0成本部署github纯前端项目流程 对业内来说应该是一个比较常规的操作,对于新手来说进行过一次应该就很难忘记了,但很多人仍然是不会的,认为部署项目很难,很专业,其实现在由于这些厂商的努力,大众&#xff…

羊奶的口味变化会影响质量吗?羊大师为你揭秘

羊奶的口味变化会影响质量吗?羊大师为你揭秘 改变羊奶的口味不一定会对其质量产生影响。尽管口味的改变可能会影响人们对羊奶的喜好程度,但这并不会使羊奶的营养价值降低。 小编羊大师提示,羊奶是一种富含营养的饮品,含有丰富的…

【已解决】PPT无法复制内容怎么办?

想要复制PPT文件里的内容,却发现复制不了,怎么办? 这种情况,一般是PPT文件被设置了以“只读方式”打开,“只读方式”下的PPT无法进行编辑更改,也无法进行复制粘贴的操作。 想要解决这个问题,我…

计算机设计大赛 深度学习YOLO安检管制物品识别与检测 - python opencv

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络4 Yolov55 模型训练6 实现效果7 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习YOLO安检管制误判识别与检测 ** 该项目较为新颖,适合作为竞赛课题方向&…

文献学习-1-Continuum Robots for Medical Interventions

Chapt 5. 连续体机构分析 5.1 文献学习 5.1.1 Continuum Robots for Medical Interventions Authors: PIERRE E. DUPONT , Fellow IEEE, NABIL SIMAAN , Fellow IEEE, HOWIE CHOSET , Fellow IEEE, AND CALEB RUCKER , Member IEEE 连续体机器人在医学上得到了广泛的应用&a…

python44-Python字典之字典入门

字典也是Python提供的一种常用的数据结构,它用于存放具有映射关系的数据。 比如: 有名字体重数据一一老师傅:79,老痞:80,亚特兰:92。 这组数据看上去像两个列表,但这两个列表的元素之间有一定的关联关系。如果单纯使…

【Simulink系列】——动态系统仿真 之 连续系统线性连续系统

声明:本系列博客参考有关专业书籍,截图均为自己实操,仅供交流学习! 一、连续系统定义 连续系统输出在时间上连续变化,而非间隔采样取值,满足以下条件: ①输出连续变化,变化的间隔…