Sora 技术实现

Sora 技术实现

Sora 的发布宛如一枚核弹,受到各行各业的追捧和关注。不可否认,Sora 生成的视频效果确实太炸裂了,甩开之前文生视频模型几条街。下面是 Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

Sora vs. Pika vs. RunwayML vs. Stable Video 生成视频效果对比

很明显可以看出 Sora 无论从分辨率、时长、精细度和对真实世界的还原程度上都远远好于其他模型。下表给出了详细的对比。

在这里插入图片描述

文章目录

    • 寻找 Sora 的技术实现线索
    • Sora 技术解析

寻找 Sora 的技术实现线索

Sora 目前还没有论文发布。要想了解 Sora 后背的技术细节只有两个途径:

  1. Sora 技术报告
  2. Sora 团队核心成员过往的论文

Sora 的技术报告中关于技术细节阐述的很简略,文章开头开宗明义地点明“本报告不包含模型和实施细节”。但我们还是能了解到 Sora 采用的是 Transform 架构,其中一项很关键的技术是时空补片(Spacetime Patches),后面我会单独写一篇文章介绍 Spacetime Patches。

既然技术报告能获取的技术细节不多,我们就深挖一下团队核心成员的论文。Sora 团队的领导者是 Tim Brooks 和 William Peebles。两位负责人都是在去年(2023年)刚刚博士毕业,应该都有很新鲜热辣的论文。

再继续向上追溯他们的导师,我惊讶的发现他们都师从 Alyosha Efros。Alyosha Efros 是加州大学伯克利分校计算机科学教授,是一位在计算机视觉和计算机图形学领域具有广泛影响的学者也是 BAIR (Berkeley Artificial Intelligence Research Lab) 伯克利人工智能研究实验室的成员。他在计算机视觉领域最著名的研究是“纹理合成”和“图像补全”,这些技术可以自然地填补图像中的缺失部分,或者生成具有特定风格的新图像。

顺着这条线索,我找到了两篇我认为对 Sora 实现至关重要的论文:

  • Sequential Modeling Enables Scalable Learning for Large Vision Models
  • Scalable Diffusion Models with Transformers

其中第二篇论文的一作正是 Sora 技术领导人之一 William Peebles。

Sora 技术解析

Sequential Modeling Enables Scalable Learning for Large Vision Models 这篇论文通过类比 LLM,提出了 LVM(Large Visual Model)大型视觉模型。通过 420B 的海量图片、视频数据进行训练。类似 LLM 将句子转换为 Token 表征,LVM 将视频也可以看做是一个长语句,不同的是 LVM 将关键帧就是语句中的 Token。这个思路跟 Sora 技术报告中描述的关键技术非常相似。模型采用 LLM 训练中常用到的 Multi-task Learning 和 In-context Learning 进行训练。

在这里插入图片描述

关于自回归视觉模型(Auto-regressive Visual Models),首先训练一个大型的 Visual Tokenizer,将单张图片转成一串 Visual Token,接着训练一个自回归 Transformers 来处理 Visual 句子。论文采用 LLaMA 的 Transformer 架构,可以容纳 16 张图像组成的视觉句子。推测 Sora 是 3B 的模型我理解也是因为这里。

在这里插入图片描述

在这里插入图片描述

Sora 发布后,Scalable Diffusion Models with Transformers 这篇论文的二作——Saining Xie 给出了自己的分析。

我们可以肯定的有两点:

  • 架构:Sora 的确是基于 Scalable Diffusion Models with Transformers(DiT)模型构建的——简而言之,它是一个以 Transformers 为主干的扩散模型

    DiT = [ VAE 编码器 + ViT + DDPM + VAE 解码器 ] \text{DiT} = [\text{VAE 编码器} + \text{ViT} + \text{DDPM} + \text{VAE 解码器}] DiT=[VAE 编码器+ViT+DDPM+VAE 解码器]

    根据 Sora 的技术报告,这部分似乎没有太多额外的花哨功能。

  • “视频压缩网络”:看起来它只是一个 VAE,但是在原始视频数据上训练的。Tokenization 在获得良好的时间一致性方面可能发挥了重要作用。顺便说一下,VAE 是一个 ConvNet,所以 DiT 从技术上讲是一个混合模型 。

Xie 解释说,当初在开发 DiT 时,并没有专注于创造新奇性,而是优先考虑简单性可扩展性。这两个特性给 DiT 带来了巨大的优势。

  • 简单性意味着灵活性。人们经常忽略的关于原生 ViT 的酷炫之处在于,当涉及到处理输入数据时,它使你的模型变得更加灵活。例如,在掩码自编码器(MAE)中,ViT 帮助我们只处理可见的补片并忽略被掩码的补片。同样的,Sora 技术报告中提到“通过在适当大小的网格中排列随机初始化的补片,可以控制生成视频的大小。” 而 UNet 并不直接提供这种灵活性。

    推测:Sora 也可能使用了 Google 的 Patch n’ Pack: NaViT,使 DiT 能够适应不同分辨率、时长和宽高比。

  • 可扩展性是 DiT 论文的核心主题。首先,优化后的 DiT 运行得比 UNet 快得多。更重要的是,Sora 证明了 DiT 的扩展定律不仅适用于图像,现在也适用于视频——Sora 复制了在 DiT 中观察到的视觉扩展行为。

    在 Sora 报告中,第一个视频的质量相当差,它使用的是基础模型大小。粗略计算:DiT XL/2 的 GFLOPs 是 B/2 模型的 5 倍,所以最终的 16X 计算模型可能是 3X DiT-XL 模型大小,这意味着 Sora 可能有约 3B 参数——如果上面的计算是合理的,这可能表明,训练 Sora 模型可能不需要像人们预期的那样多的 GPU,同时也暗示了未来的迭代可能会非常快速。

    在这里插入图片描述

Sora 最关键的能力是 “涌现出的模拟能力”。在 Sora 之前,尚不清楚长时间的一致性是否能自发出现,或者是否需要复杂的主题驱动生成管道甚至是物理模拟器。Sora 已经证明,尽管不完美,但这些行为可以通过端到端训练实现。然而,有两个要点尚未讨论。

  1. 训练数据:完全没有讨论训练数据的来源和构建,这可能暗示数据很可能是 Sora 成功的至关重要的因素。有人推测 Sora 使用了来自游戏引擎的数据,以及电影、纪录片、电影长镜头等。
  2. (自回归)长视频生成:Sora 的一个重大突破是能够生成非常长的视频。制作 2 秒视频和制作 1 分钟视频之间的差异天壤之别。Sora 可能通过联合帧预测实现长视频生成。该预测允许自回归采样,然而一个主要挑战是如何解决错误累积并维持质量/一致性。这些技术细节非常重要,希望将来能揭秘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479478.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

centos7 arm服务器编译安装onnxruntime-gpu

前言 ONNX Runtime是适用于Linux,Windows和Mac上ONNX格式的机器学习模型的高性能推理引擎,但在arm服务器上,onnxruntime只有CPU版的,GPU版的没有,因此需要自行去编译GPU版本的才可以。 环境准备 1、python3.8 2、cmake:2.26.0版本以上,可以直接下载aarch64版本的进行…

最大似然函数

1. 似然函数 似然函数在统计学中是一种关于统计模型参数的函数,用于描述在已知随机变量输出结果时,未知参数的可能取值。这个概念起源于对概率和似然性的区分。概率描述的是已知参数时随机变量的输出结果,而似然性则关注在已知随机变量输出结…

Windows端口被占用

查看端口占用情况&#xff1a; 打开命令提示符&#xff08;CMD&#xff09;或PowerShell&#xff0c;运行以下命令来查看端口占用情况&#xff1a; netstat -ano | findstr :<端口号>例如&#xff1a; > netstat -ano | findstr :3306TCP 0.0.0.0:3306 …

《英伟达-本地AI》--NVIDIA Chat with RTX-本机部署

阿丹&#xff1a; 突然发现公司给配置的电脑是NVIDIA RTX 4060的显卡&#xff0c;这不搞一搞本地部署的大模型玩一玩&#xff1f;&#xff1f;&#xff1f; 从0-》1记录一下本地部署的全过程。 本地模型下载地址&#xff1a; Build a Custom LLM with Chat With RTX | NVIDIA…

“利用电子医院记录,针对急性护理环境中的老年人,开发并验证了一项医院脆弱风险评分:一项观察性研究“

总结 背景 年长者在全球范围内成为医疗保健的增长用户。我们的目标是确定是否可以利用常规收集的数据来识别具有虚弱特征并面临不利健康结果风险的年长者。 方法 使用三步方法开发和验证了一种医院脆弱风险评分&#xff0c;该评分基于《国际疾病和相关健康问题统计分类第十次修…

BTY800P-FBEM12/M8传感器分配器

BTY800P-FBEM12/M8传感器分配器简介 BTY800P-FBEM12/M8传感器分配器通常具有多个通道&#xff0c;每个通道可以连接一个传感器&#xff0c;并提供相应的输出连接器&#xff0c;以便将传感器信号分别输出到多个设备或系统。M12/M8传感器分配器具有良好的电气绝缘性能和抗干扰能…

猫多喝水好吗?最有效解决猫不喝水的办法

猫多喝水好吗&#xff1f;充足的水分摄入对猫咪的健康非常重要&#xff0c;有助于维持其体液平衡&#xff0c;促进消化&#xff0c;降低便秘的风险&#xff0c;并保护泌尿系统的健康。猫多喝水好吗&#xff1f;建议每公斤体重的猫每天摄入60-80毫升的水&#xff0c;除了与体重相…

网络运行安全

网络运行安全 第一节 一般规定 第二十一条 国家实行网络安全等级保护制度。网络运营者应当按照网络安全等级保护制度的要求,履行下列安全保护义务,保障网络免受干扰、破坏或者未收授权的访问,防止网络数据泄露或者被窃取、篡改: 制定内部安全管理制度和操作规程,确定网络…

MySQL多实例部署:从概念到实操的全面指南

目录 MySQL多实例管理 单实例 什么是多实例 多实例的好处 多实例的弊端 MySQL多实例用在哪些场景 资金紧张的公司 用户并发访问量不大的业务 大型网站也有用多实例 部署MySQL多实例 rpm和源码的优缺点 二进制方式安装mysql 准备二进制mysql运行所需的环境 准备多…

Ubuntu18.04有线连接后,无法设置ip地址以及显示网口设置

前提&#xff1a;首先测试过网线是完全没问题的 桌面端找不到设置网口 终端输入&#xff1a; ifconfig 没有找到网口设置和对应IP 然后查询网口驱动是否正常安装&#xff0c;输入&#xff1a; lspci | grep Ethernet 有输出说明网口驱动正常安装 然后查询电脑的ip地址&am…

单片机学习笔记---红外遥控红外遥控电机调速(完结篇)

目录 低电平触发中断和下降沿触发中断的区别 红外遥控 Int0.c Int.h Timer0.c Timer0.h IR.c IR.h main.c 红外遥控电机调速 Timer1.c Timer.h Motor.c Motor.h main.c 上一节讲了红外发送和接收的工作原理&#xff0c;这一节开始代码演示&#xff01; 提前说…

“丑女”上春晚:任素汐获赞,黄绮珊遭网暴?

♥ 为方便您进行讨论和分享&#xff0c;同时也为能带给您不一样的参与感。请您在阅读本文之前&#xff0c;点击一下“关注”&#xff0c;非常感谢您的支持&#xff01; 文 |猴哥聊娱乐 编 辑|徐 婷 校 对|侯欢庭 在这个光怪陆离的人间舞台&#xff0c;我们常被绚烂的表象所迷…