sora的理解

1、背景

近期, openai紧跟Runway、 Google、Meta等公司, 发布了视频生成模型Sora, 全面进军视频领域。官网的视频效果炸裂,连贯性优秀,生成视频时长可达60秒,但模拟复杂物理场景仍有瑕疵。相对Pika、Runway的效果还是有进一步提升。考虑到这一技术的风险性,目前sora暂不开放。

6fb2de40f17c92f9f24e8bde0716a45c.jpeg


2、sora模型的介绍

虽然sora没有公布很多训练细节,基础模型还是基于diffusion模型,然后引入大语言模型transformer架构,形成扩散型变换模型(diffusion transformer)。

e9d26e215e14c298d86b9eac4ea19341.jpeg

(1)、首先将视频作为原始输入,再压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

(2)、为了解决原始视频的参次不齐的问题,引入patch的概念(灵感来源于大语言模型的),sora还专门为此训练一个视频压缩模型用于降低视觉数据维度的网络。将视频在空间和时间都进行压缩。sora在压缩的数据进行训练和生成视频。最后利用专门的解码器将生成的潜在表示映射回到像素空间。

(3)、使用不同的像素、尺寸、时间长度(内容保持一致)进行大量训练。

(4)、增强视频和图片对语言理解,利用了GPT技术对视频数据进行标注和文本对齐,同时将用户的简短提示转换成更详细的提示,然后发送给视频模型,使得很简单的prompt也可以生产好的视频。

(5)、除了支持语言,还支持图像和视频进行扩容,支持不同视频进行融合。也支持生成图片,因为图像本质上是单帧的视频。

3、sora的影响和未来方向

sora出现,也引发一众人的发表和大佬发言。对于整个科技界影响比较高。从长期来看,对自媒体、广告、电影等影视行业有很大的影响。

835b32996e602cd1fa668970326faae9.jpeg

普通怎么参与这场科技盛宴,不要只做时代进步的拉拉队呢?

(1)、股票,基金:这个大家接触最快的赛道,但是风险比较高,前段之间英伟达因为AI的大爆发, 市值超过了亚马逊。注意关于类似的科技股(amd)。

(2)、注册sora相关的域名和商标等。

(3)、套壳:sora大概率也会开放api的方式,并且国内一般访问不了,先把用户吸引进来。

(4)、ppt,文章等达人,传播一些技术热点文章。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/475856.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL补充2:数据库的增操作

数据库的增操作 数据库的增操作主要涉及数据库的增加、数据表的增加、表记录增加以及表字段增加等: 数据库的增加非常简单,就是新创建一个数据库;表记录的增加指的就是新增表的数据行,可以是在已有表的基础上增加记录&#xff0…

基于SSM的电影购票系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的电影购票系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring Spri…

Pandas.DataFrame.cumprod() 累积乘积 详解 含代码 含测试数据集 随Pandas版本持续更新

关于Pandas版本: 本文基于 pandas2.2.0 编写。 关于本文内容更新: 随着pandas的stable版本更迭,本文持续更新,不断完善补充。 传送门: Pandas API参考目录 传送门: Pandas 版本更新及新特性 传送门&…

【c++ debug】记一次protobuf结构相关的coredump问题

文章目录 1. 问题现象2. 问题描述3. 问题分析4. 问题根因5. 问题修复6. 补充:类成员变量定义为引用类型 1. 问题现象 其中curr_lanes是一个目标上一帧的当前车道current_lanes_curr_lane是lane_id对应的LaneInfo信息现象:在lane_info->lane().success…

四川古力未来科技公司抖音小店:靠谱的新电商之旅

随着互联网的飞速发展,电商行业日新月异,新兴平台如抖音小店正成为消费者新的购物天堂。在众多抖音小店中,四川古力未来科技公司的店铺以其独特的魅力吸引了众多消费者的目光。那么,四川古力未来科技公司抖音小店到底靠不靠谱呢&a…

Java并发基础:ConcurrentSkipListSet全面解析!

内容概要 ConcurrentSkipListSet类在多线程环境下,它能够轻松应对大量的插入、删除和查找操作,同时保持数据的完整性和一致性,其内部基于跳表数据结构的实现,确保了即使在处理大规模数据时,也能具有出色的性能表现。 …

现在学鸿蒙有前途吗?能找到工作?

2024年可以说是布道鸿蒙开发行业的最佳时机,华为鸿蒙在2023年末宣布了纯血鸿蒙的问世。这一信息已经引起业界很大关注。 鸿蒙2024年初,在千帆启航仪式会中,宣布了星河版并对开发者开放申请。发布会中表示,已有200家头部企业加入原…

2024.2.18

使用fgets统计给定文件的行数 #include<stdio.h> #include<string.h> int main(int argc, const char *argv[]) {FILE *fpNULL;if((fpfopen("./test.txt","w"))NULL){perror("open err");return -1;}fputc(h,fp);fputc(\n,fp);fput…

java根据前端所要格式返回树形3级层级数据

一、业务分析&#xff0c;根据前端需求返回如下数据格式 二、后端设计数据类型VO /*** author TTc* version 1.0* date 2024/2/15 16:47*/ Data AllArgsConstructor NoArgsConstructor public class Catalog2Vo {/*** 一级父分类的 id*/private String catalog1Id;/*** 三级子…

迪杰斯特拉算法

迪杰斯特拉算法&#xff08;Dijkstras Algorithm&#xff09;&#xff1a; 由来&#xff1a; 迪杰斯特拉&#xff08;Dijkstra&#xff09;算法是由荷兰计算机科学家艾兹赫尔戴克斯特拉&#xff08;Edsger W. Dijkstra&#xff09;在1956年提出的一种解决带权有向图中单源最短…

2023年中国数据智能管理峰会(DAMS上海站2023):核心内容与学习收获(附大会核心PPT下载)

随着数字经济的飞速发展&#xff0c;数据已经渗透到现代社会的每一个角落&#xff0c;成为驱动企业创新、提升治理能力、促进经济发展的关键要素。在这样的背景下&#xff0c;2023年中国数据智能管理峰会&#xff08;DAMS上海站2023&#xff09;应运而生&#xff0c;汇聚了众多…

Python Selenium实现自动化测试及Chrome驱动使用!

本文将介绍如何使用Python Selenium库实现自动化测试&#xff0c;并详细记录了Chrome驱动的使用方法。 通过本文的指导&#xff0c;读者将能够快速上手使用Python Selenium进行自动化测试。 并了解如何配置和使用Chrome驱动来实现更高效的自动化测试。 一、Python Selenium简…