Sora的技术原理的分析以及带来的影响-编程知识

Sora的技术原理的分析以及带来的影响

news/2025/4/2 13:25:44/文章来源:https://blog.csdn.net/qq_41308489/article/details/136359294

1、Sora：视频生成模型作为世界模拟器

我们探索在视频数据上进行大规模生成模型的训练。具体来说，我们联合训练了文本条件扩散模型，用于处理持续时间、分辨率和宽高比各异的视频和图像。我们利用了一种变压器架构，该架构在视频和图像潜在编码的时空补丁上运行。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明，扩展视频生成模型是建立通用物理世界模拟器的一个有前景的途径。

上面是Open AI Sora的技术报告的首段内容，可以看出Sora的野心远远不是简单的视频生成，而是跟标题一样的意思，目标是通过视频数据来学校一个世界模型或者世界模拟器，这才是令人兴奋激动的主要部分。

2、技术实现

2-1、将视觉数据转换为补丁

受到大型语言模型的启发，这些模型通过在互联网规模数据上进行训练获得了通用能力。语言模型的成功在一定程度上得益于优雅地统一了文本、代码、数学和各种自然语言等不同形式的标记。在这项工作中，我们考虑了生成视觉数据模型如何继承这些优势。与语言模型具有文本标记不同，Sora 使用视觉补丁。先前已经证明，补丁是视觉数据模型的有效表示。我们发现，对于训练生成各种类型的视频和图像模型，补丁是一种高度可扩展和有效的表示方法。

2-2、采用patches统一训练数据格式

最早在ViT中出现将图片分patch输入给transformer。Sora的有点不太一样，首先通过一个encoder（VAE结构）将视频帧压缩到一个低维度隐式空间（包含时间和空间上的压缩），然后展开成序列的形式送入模型训练，同样的模型预测也是隐式的序列，然后用decoder解码器去解码映射回像素空间形成视频。

Sora 在这个压缩的潜在空间上进行训练，并随后生成视频。还训练了一个相应的解码器模型，将生成的潜在表示映射回像素空间

将变压器用于视频生成规模化，Sora是一个扩散模型；给定输入的噪声补丁（以及文本提示等条件信息），它被训练为预测原始的“干净”补丁。重要的是，Sora是一个扩散变压器。变压器已经在各种领域展示了出色的规模化性能，包括语言建模、计算机视觉和图像生成。

2-3、Sora在视频生成方面的优势可以总结如下：

基于补丁的表示：Sora使用基于补丁的表示方法，使其能够处理具有不同分辨率、持续时间和宽高比的视频和图像。
扩散变压器：作为扩散模型的一种，Sora在处理输入噪声补丁时，通过训练预测原始“干净”补丁，这有助于提高生成质量。
可扩展性：Sora是基于变压器的模型，而变压器已经在多个领域展示了出色的规模化性能，包括语言建模、计算机视觉和图像生成。
生成控制：在推断时，可以通过合理排列随机初始化的补丁来控制生成视频的大小，这增强了对生成过程的控制能力。
对图像的适用性：Sora的设计也适用于处理图像数据，因为图像本质上只是单帧视频。

2-4、 使用re-captioning获得text-videos对

在训练阶段，将视频按1帧或者隔n帧用DALL·E3按照一定的规范形成对应的描述文本，然后输入模型训练。在推理阶段，首先将用户输入的prompt用GPT4按照一定的规范把它详细化，然后输入模型得到结果。

3、网络结构

3-1、DiT（Diffusion in Transformers）

DiT（Diffusion in Transformers）结构是将transformer和**DDPM（Diffusion Models）**结合在一起的模型。简单来说，它使用transformer结构替换了稳定扩散中的U-Net结构，用于噪声去除。这种替换带来了以下优势：

随着数据规模或训练时间的增加，模型效果越好：这意味着随着模型的规模和训练时间的增加，模型的性能会进一步提升，这是一个非常有吸引力的特性。（也就是大力出奇迹，暴力文学）
模型越大、补丁越小，效果越好：这表明使用更大的模型和更小的补丁可以进一步提高模型的性能。

3-2、整体的结构
下图来自B站UP主ZOMI酱的画的一个Sora结构：

在Conditioning阶段，可能不是一帧对应一个文本，而是几帧甚至十几帧对应一段文本描述。在编码成时空潜在补丁时，可能使用了ViViT的时空编码方式。输入给解码器（encoder）的内容应该是去噪之后的补丁序列，用补丁（patches）描述比使用Tokens更准确一些。

4、带来的影响

4-1、Sora可能带来的影响包括：

影视和短视频行业：Sora可能首先影响影视和短视频行业，为其提供更高效、更创新的内容生成工具。
生成时间的增长：未来的Sora版本可能会生成更长的序列，这类似于ChatGPT不断增大的输入标记长度，为内容创作提供更大的灵活性和多样性。
通向AGI的道路：Sora的发展可能是通向人工通用智能（AGI）的一部分，这是许多人所追求的目标。
世界模型的讨论：人们广泛讨论和关注Sora是否具备世界模型的特征，其能力包括3D一致性、长程一致性和物体永久性、与世界的互动以及模拟数字世界等。

总的来说，Sora可能对影视、视频生成和人工智能领域带来重大影响，推动这些领域的发展和创新。

（PS：到目前为止 Open AI 官方还未开放 sora 灰度，虽然可以进行申请，不过根据文生图模型 DALL·E3 的案例，肯定是先给 ChatGPT Plus 付费用户使用，需要注册或者升级 GPT Plus 可以点击这个教程: 升级 ChatGPT Plus 的教程，2～3分钟就完成升级

参考：

1.https://zhuanlan.zhihu.com/p/683004185

2.https://arxiv.org/abs/

3.https://openai.com/research/video-generation-models-as-world-simulators

4.https://www.bilibili.com/video/BV1Bx4y1k7BQ/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/505551.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

李宏毅机器学习入门笔记——第八节

李宏毅机器学习入门笔记——第八节

Auto-Encoder 输入图片经过两个网络后，计算他们两个越接近越好。类似于Cycle GAN。 encoder将高纬度数据降维，作为低纬度向量假如噪声进行训练，encoder将图片中的噪声去除。其实BERT而言，就是以后个auto-encoder。 Feature d…

阅读更多...

Http基础之http协议、无状态协议、状态码、http报文、跨域-cors

Http基础之http协议、无状态协议、状态码、http报文、跨域-cors

Http基础 HTTP基础HTTP协议请求方法持久连接管线化无状态协议使用Cookie状态管理状态码1XX2XX OK200 OK204 NO Content206 Content-Range 3XX 重定向301302304307 4XX400401403404 5XX500503 HTTP报文请求报文响应报文通用首部字段Cache-ControlConnectionDate请求首部字段Ac…

阅读更多...

算法--动态规划（线性DP、区间DP）

算法--动态规划（线性DP、区间DP）

这里写目录标题 tip数组下标从0开始还是从1开始线性DP数学三角形介绍算法思想例题代码最长上升子序列介绍算法思想例题代码最长公共子序列介绍算法思想例题代码编辑距离介绍例题代码区间DP问题石子合并介绍算法思想例题代码 tip 数组下标从0开始还是从1开始如果代码中涉…

阅读更多...

Muduo库编译学习(1)

Muduo库编译学习(1)

1.muduo库简介 muduo是由Google大佬陈硕开发，是一个基于非阻塞IO和事件驱动的现代C网络库，原生支持one loop per thread这种IO模型，该库只支持Linux系统，网上大佬对其褒贬不一，作为小白用来学习就无可厚非了。 git仓库…

阅读更多...

[c++] 继承和多态整理二

[c++] 继承和多态整理二

1 虚函数和纯虚函数虚函数，之所以说是虚的，说的是在派生类中，可以覆盖基类中的虚函数；相对于虚函数来说，没有 virtual 修饰的函数可以叫做实函数，实函数就不能被覆盖。虚函数是实现多态的核心。虚函数和纯…

阅读更多...

pdf如何压缩文件大小？pdf文件在线压缩方法介绍

pdf如何压缩文件大小？pdf文件在线压缩方法介绍

在日常工作中，我们经常使用PDF文件进行传输和保存，然而，有时候我们会遇到过大的PDF文件，这不仅会导致传输困难，还会占用过多的设备空间，因此，我们需要对PDF压缩一下以便更轻松地传输和保存&…

阅读更多...

重学Springboot3-@ConditionalOnXxx条件注解

重学Springboot3-@ConditionalOnXxx条件注解

重学Springboot3-ConditionalOnXxx条件注解引言常见的条件注解常见的条件注解示例扩展条件注解1. ConditionalOnJndi2. ConditionalOnJava3. ConditionalOnCloudPlatform4. ConditionalOnEnabledResourceChain5. 自定义条件注解总结引言 Spring Boot 提供了一组强大的条件注…

阅读更多...

对程序、进程、线程、并发、并行、高并发概念的讲解

对程序、进程、线程、并发、并行、高并发概念的讲解

一、概述程序、进程、线程、并发、并行和高并发是计算机科学领域中非常重要的概念。了解进程、线程、并发和并行的概念，可以更好地利用计算机的多核处理器和并行计算能力，提高计算机性能。了解进程和线程为操作系统中的资源管理提供了基础&#xff…

阅读更多...

每日一类：QLabel深入解析

每日一类：QLabel深入解析

QLabel是Qt中用于显示文本或图像的控件，属于Qt Widgets模块。它是展示静态内容的理想选择，支持富文本格式，使得文本可以包含不同的字体、颜色和链接。QLabel也可以用来显示图像，包括动态图像。此外，它还支持文本和图像…

阅读更多...

$P4715 【深基16.例1】淘汰赛题解$

P4715 【深基16.例1】淘汰赛题解

题目有（n≤7）个国家参加世界杯决赛圈且进入淘汰赛环节。已经知道各个国家的能力值，且都不相等。能力值高的国家和能力值低的国家踢比赛时高者获胜。1号国家和2号国家踢一场比赛，胜者晋级。3号国家和4号国家也踢一场，…

阅读更多...

实战 | 使用YOLOv8图像分割实现路面坑洞检测（步骤 + 代码）

实战 | 使用YOLOv8图像分割实现路面坑洞检测（步骤 + 代码）

导读本文主要介绍使用YOLOv8图像分割实现路面坑洞检测（步骤代码）。背景如上图所示，现实生活中路面坑洞对车辆和驾驶员安全来说存在巨大隐患，本文将介绍如何使用YoloV8图像分割技术来检测路面坑洞，从而提示驾…

阅读更多...

平台工程: 用Backstage构建开发者门户 - 1

平台工程: 用Backstage构建开发者门户 - 1

本文介绍了如何使用开源Backstage构建自己的开发者门户，并基于此实践平台工程。本系列共两篇文章，这是第一篇。原文: Platform Engineering: Building Your Developer Portal with Backstage — Part 1 在上一篇文章(平台工程与安全)中，我们介…

阅读更多...

推荐文章

最新文章