OpenAI Sora视频生成机制:时空补丁

AI如何将静态图像转化为动态、逼真的视频?OpenAI 的 Sora 通过时空补丁(spacetime patches)的创新使用给出了答案。

独特的视频生成方法

在生成模型的世界中,我们看到了从 GAN 到自回归和扩散模型的许多方法,它们都有自己的优点和局限性。Sora 现在引入了范式转变,采用了新的建模技术和灵活性,可以处理广泛的持续时间、宽高比和分辨率。

Sora 将 Diffusion 和 Transformer 架构结合在一起创建扩散变压器模型,并能够提供以下功能:

  • 文本到视频正如我们所见
  • 图像到视频:为静态图像带来活力
  • 视频到视频:将视频风格更改为其他内容
  • 及时延长视频:向前和向后
  • 创建无缝循环:平铺视频看起来永无止境
  • 图像生成:静止图像是一帧的电影(最大2048 x 2048
  • 生成任何格式的视频:从 1920 x 1080 到 1080 x 1920 以及之间的所有格式
  • 模拟虚拟世界:如《我的世界》和其他视频游戏
  • 创建视频:长度不超过 1 分钟,包含多个短片

想象一下您在厨房里。传统的视频生成模型(例如Pika和RunwayML中的模型)就像严格遵循菜谱的厨师。他们可以制作出精美的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪面食(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。

另一方面,Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅遵循菜谱,而且遵循食谱。他们发明新的。Sora 的原料(数据)和技术(模型架构)的灵活性使 Sora 能够制作各种高质量的视频,类似于大厨的多才多艺的烹饪创作。

Sora技术核心:探索时空补丁

时空补丁是 Sora 创新的核心,它建立在Google DeepMind 对 NaViT和 ViT(Vision Transformers)的早期研究基础上,该研究基于 2021 年的论文An Image is Worth 16x16 Words。

“Vanilla”视觉变压器架构 — Credit Dosovitskiy et al., 2021

传统上,对于Vision Transformers,我们使用一系列图像“补丁”来训练用于图像识别的 Transformer 模型,而不是用于语言 Transformer 的单词。这些补丁使我们能够摆脱卷积神经网络进行图像处理。

帧/图像如何“补丁化” — Credit Dehghani et al., 2023

然而,视觉变换器受到大小和长宽比固定的图像训练数据的限制,这限制了质量并且需要大量的图像预处理。

切片视频时态数据的可视化 — 来源:kitasenjudesign

通过将视频视为补丁序列,Sora 保持了原始的宽高比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都有助于模型的理解,就像厨师如何使用各种原料来增强菜肴的风味一样。

通过时空补丁对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们一睹人工智能创建复杂、动态视觉内容的潜力。

为Sora提供训练数据:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。现有的视频模型传统上是根据更严格的数据集、更短的长度和更窄的目标进行训练的。

Sora 利用庞大且多样化的数据集,包括不同时长、分辨率和宽高比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界镜头,以便捕获所有角度和各种风格的视频内容。这将 Sora 引入了“通才”模型,就像文本领域的 GPT-4 一样。

这种广泛的培训使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式,将类似的原理应用于视觉内容以实现通才能力。

可变“补丁”NaVit 与传统视觉 Transformers — Credit Dehghani et al., 2023

正如 NaViT 模型通过将不同图像的多个补丁打包到单个序列中展示了显着的训练效率和性能增益一样,Sora 利用时空补丁在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时与现有建模架构相比降低所需的计算量。

将物理世界带入生活:Sora 对 3D 和连续性的掌握

3D 空间和物体持久性是 Sora 演示中的关键亮点之一。通过对各种视频数据进行训练,无需调整或预处理视频,Sora 学会了以令人印象深刻的精度对物理世界进行建模,因为它能够以原始形式使用训练数据。

它可以生成数字世界和视频,其中对象和角色在三维空间中令人信服地移动和交互,即使它们被遮挡或离开框架也能保持连贯性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/475991.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计usb转ttl模块的一些问题

这个是我之前设计的usb转ttl模块,用到的是CH340N芯片,目前遇到的问题以及疑问有以下几个,望大佬们解答: 1 想设计的是一块可以选择3.3V或者5V输出,所以我用了在TTL输出那里加了VCC、VCC3.3V、5V这几个引脚&#xff0c…

Unity所有关于旋转的方法详解

前言:欧拉角和四元数的简单描述 我们在Inspector面板上看到的rotation其实是欧拉角, 我们将Inspector面板设置成Debug模式,此时看到的local Rotation才是四元数。 Unity中的欧拉旋转是按照Z-X-Y顺规执行的旋转,一组欧拉旋转过程中…

腾讯云4核8G12M服务器支持多少人在线?

4核8G服务器支持多少人同时在线访问?阿腾云的4核8G服务器可以支持20个访客同时访问,关于4核8G服务器承载量并发数qps计算测评,云服务器上运行程序效率不同支持人数在线人数不同,公网带宽也是影响4核8G服务器并发数的一大因素&…

Shiro-11-web 介绍

配置 将Shiro集成到任何web应用程序的最简单方法是在web.xml中配置一个Servlet ContextListener和过滤器,该Servlet了解如何读取Shiro的INI配置。 INI配置格式本身的大部分是在配置页面的INI部分中定义的,但是我们将在这里介绍一些额外的特定于web的部…

OpenHarmony—UIAbility组件与UI的数据同步

基于HarmonyOS的应用模型,可以通过以下两种方式来实现UIAbility组件与UI之间的数据同步。 使用EventHub进行数据通信:基于发布订阅模式来实现,事件需要先订阅后发布,订阅者收到消息后进行处理。使用globalThis进行数据同步&#…

你的知识,也许会成为进步的阻碍

我在很多场合,都会谈到一个词,叫做「终身学习者」。 包括我自己,也一直把它挂在个人介绍里。 有朋友问过我:这个介绍一点也不厉害,也不能给你带来任何机会,为什么一直挂着它? 其实,与…

JVM--- 垃圾收集器详细整理

目录 一、垃圾收集需要考虑的三个事情: 二、垃圾回收针对的区域 三、如何判断对象已死 1.引用计数算法: 2.可达性分析算法 四、引用 五、生存还是死亡? 六、回收方法区 七、垃圾收集算法 1.分代收集理论 2.标记-清除算法 3.标记-复制算…

【COMP337 LEC 5-6】

LEC 5 Perceptron &#xff1a; Binary Classification Algorithm 8 感应器是 单个神经元的模型 突触连接的强度取决于接受外部刺激的反应 X input W weights a x1*w1x2*w2....... > / < threshold Bias MaxIter is a hyperparameter 超参数 which has to be chosen…

2024年开工,煮熟的鸭子飞了咋办

去年是我居家创业的第一个年头&#xff0c;业绩总体来说不及预期&#xff08;上班的收入&#xff09;&#xff0c;仅仅满足日常开支&#xff0c;没有任何的盈余。 去年有点项目没完成收尾&#xff0c;所以初四我就选择开工了&#xff0c;就图一个大吉大利。年前积压的客户需求…

嵌入式系统在智慧城市建设中的关键角色与挑战

&#xff08;本文为简单介绍&#xff0c;观点源于网络&#xff09; 智慧城市的概念&#xff0c;随着信息技术的日益发展而不断深化。它利用各种信息传感器&#xff0c;通过物联网、云计算、大数据等技术手段&#xff0c;实现城市管理的智能化、精细化。在这一过程中&#xff0…

Arduino的PWM功能应用:会呼吸的灯

目录 概述 1 认识PWM 1.1 PWM原理 1.2 PWM的应用 1.3 在Arduino中使用PWM 2.硬件 2.1 硬件结构 2.2 线路连接 3 软件 3.1 编译和下载代码 3.2 详细代码 4 测试 4.1 灯的变化测试 4.2 使用逻辑分析仪看波形 概述 本文通过一个简单的案例&#xff0c;介绍Arduino中P…

基于Springboot的新能源充电系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的新能源充电系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&a…