Datawhale【Sora原理与技术实战】| 学习笔记

目录

  • 一. Sora能力
  • 二. Sora训练流程
    • 1. Visusal encoder
    • 2. Diffusion Transformer
    • 3. Transformer Decoder

一. Sora能力

  1. 长视频:最大可支持60s高清视频生成
  2. 保持人物与场景高度统一
  3. 视频融合能力强
  4. 同一场景多角度/多镜头
  5. 涌现:随着运动镜头的变化,人与场景在三维空间中一致移动
  6. 支持任意分辨率,宽高比的视频输出

但是,Sora并没能完全达到理解物理世界的能力

二. Sora训练流程

在这里插入图片描述

1. Visusal encoder

	将原始的视频数据(NxHxW的若干帧图像)切分成一小块一小块的patch通过VAE编码器,压缩成低维空间表示,提取特征flatten操作拉平为一维数据patch被送入diffusion model

在这里插入图片描述

视频数据经过一个Visusal encoder的编辑器,将所有的数据做成一个灰色的block
这个block可以存储在spatial temperal patch中,其中patch含有视频空间和时间的表征

2. Diffusion Transformer

基于文本语义到图像语义的再映射

	相当于输入一个promote提示词后,即文本语义基于文本语义做出一个相对于图片的映射最后根据映射生成的图片再去组成一个一维的视频数据

3. Transformer Decoder

	Diffusion Transformer生成的低维空间通过VAE解码器恢复成像素级的视频数据

Reference:
【一文看Sora技术推演 作者:周文猛 魔搭社区】
【📖学习手册】
【sora技术原理详解回放】


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/505415.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中央处理器CPU中的技术

一、 知识加油站 1. cpu 指令的执行过程 取指:cpu 获取 程序计数器 中存放的指令地址。读取内存中此地址对应指令并存入指令寄存器译码:指令译码器,解析指令运行:算数逻辑单元计算回写:将执行结果写入对应位置 二. …

Julia语言中的位运算符、赋值运算符、算术运算符

算术运算符 # 使用基本的赋值运算符 a 10 println("a 的初始值是: $a") # 使用加法赋值运算符 a 5 println("a 加上 5 后的值是: $a") # 使用减法赋值运算符 - a - 3 println("a 减去 3 后的值是: $a") # 使用乘法赋值运算符…

spring框架Bean的作用域?对需要保持会话状态的bean应使用prototype作用域?为啥?

当一个bean被定义为"prototype"作用域时,每次请求该bean时都会创建一个新的实例,而不是像"singleton"作用域那样共享同一个实例。 对于需要保持会话状态的bean,如果使用"singleton"作用域,会导致所…

Pycharm的下载安装与汉化

一.下载安装包 1.接下来按照步骤来就行 2.然后就能在桌面上找到打开了 3.先建立一个文件夹 二.Pycharm的汉化

美国教授查理曼说中国为何强大?中国人都不知道的民族特性

Title: 中国强大的秘密:查理曼教授的视角 在世界历史的长河中,中华民族以其辉煌灿烂的文化和举世瞩目的成就,书写了一篇篇传奇篇章。然而,对于中国人为什么能够取得如此卓越的成就,许多人却并不清楚。近日&#xff0c…

transformer--编码器2(前馈全连接层、规范化层、子层链接结构、编码器层、编码器)

前馈全连接层 什么是前馈全连接层: 在Transformer中前馈全连接层就是具有两层线性层的全连接网络 前馈全连接层的作用: 考虑注意力机制可能对复杂过程的拟合程度不够,通过增加两层网络来增强模型的能力 code # 前馈全连接层 class PositionwiseFeedForward(nn.Module):de…

spring介绍

spring 1.优点 1)针对接口编程,解耦合 2)aop:变向切面编程,动态增加功能 3)方便集成框架,mybatis,hibernate,strust等 4)降低j2ee接口的使用难度 2.spring是干什么的 管理bean及bean…

事件循环相关知识

事件循环 浏览器的进程模型 何为进程 程序运行需要有专属的内存空间,可以吧这块内存空间简单的理解为进程 每个应用至少有一个进程,进程之间相互独立,即使要通信也需要双方同意 何为线程 有了进程就可以运行代码 运行代码的人称为线程 一…

贪吃蛇(C语言)步骤讲解

一:文章大概 使用C语言在windows环境的控制台中模拟实现经典小游戏 实现基本功能: 1.贪吃蛇地图绘制 2.蛇吃食物的功能(上,下,左,右方向控制蛇的动作) 3.蛇撞墙死亡 4.计算得分 5.蛇身加…

【Leetcode每日一题】二分查找 - 山脉数组的峰顶索引(难度⭐⭐)(23)

1. 题目解析 Leetcode链接:852. 山脉数组的峰顶索引 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 核心在于找到题目中所说的峰值所在的下标并返回他们的下标即可。 2. 算法原理 峰顶及两侧数据特点分析 峰顶数据…

实时显示,无需等待!这个工具好玩又好用

今天介绍一个实时打字翻译项目,名字叫做"Real-time Translation Typing" ,这个项目的目标是创建一个能够实时翻译和打字的软件,这意味着用户可以输入一种语言,而系统会立刻以另一种语言显示文本。这样的工具对于需要跨语…

数据增加

目录 增加数据 实现数据增加,保存新的内容 注意 Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 增加数据 由于 emp 表中的数据对日后的开发依然有用处,所以在讲解更新之前 建议将emp 表数据做一个复制。将…