sora技术报告阅读

sora是一个在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。

需要将所有类型的视觉数据转化为统一表示的方法,使得能够对生成模型进行大规模训练。

Sora是一个通用的视觉数据模型,它可以生成不同持续时间、宽高比和分辨率的视频和图像,最高可达一分钟的高清视频。

LLM范式的成功部分归功于使用了tokens巧妙地统一了文本的各种形式——代码、数学和各种自然语言。LLM有文本tokens,而Sora有视觉patches。patches先前已被证明是视觉数据模型的有效表示。patches是在不同类型的视频和图像上训练生成模型的高度可扩展和有效的表示。

在高水平上,首先将视频压缩到较低维度的潜在空间中,然后将表示分解为patches。

视频压缩网络将原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。sora在这个压缩的潜在空间中接受训练并随后生成视频。还训练了一个相应的解码器模型,该模型将生成的潜在空间特征映射回像素空间。

给定压缩的输入视频,提取一系列patches。也适用于图像,因为图像只是具有单个帧的视频。基于patches的表示使Sora能够在不同分辨率、持续时间和纵横比的视频和图像上进行训练。在推理时,可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

不用像传统方法一样将视频裁剪成256x256分辨率。使用原始分辨率效果更好。

Sora可以对宽屏幕1920x1080p视频、垂直1080x1920视频以及其间的所有视频进行采样,因此可以直接按照不同设备的固有纵横比为其创建内容。

相比裁剪过的视频训练,原始视频训练的sora有了更好的取景效果。

对高度描述性视频字幕的训练可以提高文本保真度以及视频的整体质量。

除了上面的文本提示,也可以使用图像和视频进行提示。

能够在时间上向前或向后扩展视频。

zero-shot转换输入视频的风格和环境。

在两个输入视频之间逐渐插值,在具有完全不同主题和场景组成的视频之间创建无缝过渡。

过在时间范围为一帧的空间网格中排列高斯噪声块来实现图片生成。

Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以持久化人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持其外观。

可以用简单的方式模拟影响世界状态的动作。例如,一个画家可以在画布上留下新的笔触,并随着时间的推移而持续。

模拟数字世界。

索拉目前作为一个模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/499305.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打造透明银行存储:Solidity智能合约的实践与探索

引言: 随着区块链技术的快速发展,智能合约作为其中的核心组件,正被越来越多地应用于各种场景。作为智能合约的编程语言,Solidity因其对以太坊平台的深度支持而备受关注。在这篇文章中,我们将通过构建一个透明的银行存储…

webrtc

stun服务 阿里云服务器安全组添加端口开放 webrtc-streamer视屏流服务器搭建 - 简书

docker安装单机版canal和使用

说明:我安装的组件架构如下: 1、准备一台虚拟机,192.168.2.223,我安装的时候,docker只支持canal1.1.6版本,1.1.7无法使用docker安装.还有一点要补充,就是1.1.6好像不支持es8.0以上版本&#x…

Java+SpringBoot,打造社区疫情信息新生态

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

FreeRTOS 信号量

目录 一、信号量的概念 二、二值信号量 1、二值信号量的定义 2、二值信号量的作用 3、二值信号量的操作 4、二值信号量操作实验 5、二值信号量会导致优先级翻转问题 三、互斥信号量 1、互斥信号量的引入 2、注意:互斥信号量不能用于中断服务函数中&#xf…

【STM32】STM32学习笔记-独立看门狗和窗口看门狗(47)

00. 目录 文章目录 00. 目录01. WDG概述02. 独立看门狗相关API2.1 IWDG_WriteAccessCmd2.2 IWDG_SetPrescaler2.3 IWDG_SetReload2.4 IWDG_ReloadCounter2.5 IWDG_Enable2.6 IWDG_GetFlagStatus2.7 RCC_GetFlagStatus 03. 独立看门狗接线图04. 独立看门狗程序示例105. 独立看门…

宝塔FTP服务设置并结合cpolar内网穿透实现远程传输文件

文章目录 1. Linux安装Cpolar2. 创建FTP公网地址3. 宝塔FTP服务设置4. FTP服务远程连接小结 5. 固定FTP公网地址6. 固定FTP地址连接 宝塔FTP是宝塔面板中的一项功能,用于设置和管理FTP服务。通过宝塔FTP,用户可以创建FTP账号,配置FTP用户权限…

高级语言期末2011级B卷(计算机学院)

1.编写函数&#xff0c;实现按照如下公式计算的功能&#xff0c;其中n为自然数 #include <stdio.h>int fac(int n) {if(n0)return 1;elsereturn n*fac(n-1); }float fun(int n) {float flag;float sum0;for(int i0; i<n; i) {flagi/((i1)*fac(i2));sumflag;}return su…

无法调试MFC源码

VS无法调试MFC源码 起初 有时候就是这么无奈&#xff0c;MFC源码各种问题没有办法调试&#xff0c;可是又想看下代码如何调用&#xff0c;里面做了些什么&#xff0c;从哪儿调出&#xff0c;学习一下大神的思路什么的。整理一下有可能的原因。 检查生成代码设置 需要设置正…

Anroid开发过程中常见的异常及解决方法

本文总结了在android开发中一些常见的错误及异常&#xff0c;特此分享&#xff01; The import android cannot be resolved 错误 将android源码通过eclipse的import功能导入的话&#xff0c;如果出现了“The import android cannot be resolved”错误。不用着急&#xff0c;…

petalinux烧写image.ub报错

xinlinx SDK烧写petalinux生成的BOOT.BIN和image.ub时&#xff0c;BOOT.BIN烧写正常&#xff0c;image.ub烧写报错如下 Erase Operation failed. INFO: [Xicom 50-44] Elapsed time 0 sec.ERROR: Flash Operation Failed串口助手操作擦除flash如图&#xff1a; 解决方法&am…

jenkins插件下载失败bug

如果遇到安装jenkins插件经常失败并报以下类似错误&#xff0c;很可能是因为jenkins国外官方插件地址下载速度非常慢&#xff0c;我们可以修改为国内插件地址。 java.io.IOException: Failed to load: SCM API Plugin (scm-api 676.v886669a_199a_a_) - Jenkins (2.361.4) or h…