Sora一出 哪里又要裁员了?

        

        上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息,简单的捋一捋。

一、Sora是什么

        官方给出的定义是:世界模拟器。这很明显有夸大的成分,实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后大力出奇迹,达到你想看什么就生成什么视频的效果。

二、Sora为什么受追捧

        第一个牛逼之处是持久。虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时,但只能生成3秒以内的视频。而Sora生成的视频足足1分钟,基本达到了实际使用的要求,毕竟某音上很多小姐姐的视频还达不到1分钟。

        第二就是连贯。视频内容的语义连贯性已经非常完美,前景、背景的镜头感和融合程度非常好,甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则,已经不是不是文生图这样的小玩意儿了,来看个例子吧。

title_0

三、训练过程

        关于算法的信息,作者只公布了一点点信息,任何细节都没有透露,我们只能根据只言片语大概得还原一下训练过程。

1.把图像数据转化为 patches(也许可以翻译成面片),patches是从LLM里面得到的灵感,相当于LLM中的token,作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列,Visual Patches的的维度应该和视频帧数相关。

2.为了统一不通过尺度和时长的视频,作者训练了一个视频压缩网络,将视频压缩成统一且低纬度的特征表示。

3.将2中的特征送入一个diffusion transformer模型(具体结构未知)中进行编解码,编码阶段得到类似Transformer中token的Spacetime latent patches(时空隐补丁?实在不会翻译),解码阶段生成“干净的”patches。既然是diffusion 模型,编解码的过程中可定会掺入提示词的token和随机马赛克。

四、视频数据

1.使用大分辨率视频进行训练:第一个好处:抽样的灵活性,Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。

sampling_0

sampling_2

2.使用完整的视频进行训练:作者发现这样可以改善构图,使视频的语义更统一,传统做法是将最视频进行随机的裁剪成正方形或者矩形,这样有可能丢掉很多内容,是语义不完整,像下面着这样,左面的是传统的财裁剪方式,右面是作者使用的方式。

sampling_3

sampling_4

五、文本数据

1.训练了一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。作者发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。

2.利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

        关于模型和数据的介绍官方只放出这么多,其实也没有什么颠覆性的创新,也许是​压箱底的东西没有拿出来?但从这些信息来看,只能用四个字来形容​:力大砖飞

六、还能做什么

        除了文本生成视频,Sora还有很多玩法:

        (1)图片+prompt生成视频

prompting_1

        (2)扩展视频:Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

extend_1

extend_2

extend_4

        (3)编辑视频:根据prompt修改视频的内容

base

0

        (4)拼接视频:Sora可以在两个输入视频之间进行插帧,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。

a0

a1

a2

七、涌现的能力

        除此之外Sora还有许多有趣的突发能力,类似于“涌现”。

        比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

simulation_0

        Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

simulation_2

        Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。

simulation_5

        Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。

simulation_6

八、写在最后

        其实Sora还有很多不足,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。就连官方也给出了“自黑”视频。

        但我认为国人的重点不应该放在Sora生成的视频好或者不好,也不用提多少行业会被颠覆。而是应该冷静思考一下,为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。

        确实我们在很多领域正以肉眼可见的速度追赶世界一流水平,包括各类顶会也越来越多国人的身影。这是好事,但在我看来,我们在人工智能领域与世界顶尖水平的差距确实越来越远了,无论软件还是硬件。

        努力吧!希望下次引爆朋友圈的是我们自己的公司,而不是盯着别人的东西土嗨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/479450.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java的Lock(二)

自旋锁 VS 适应性自旋锁 堵塞或者notify一个Java线程需要操作系统切换CPU状态来完成(详情请参考11408)。这种状态切换需要耗费CPU时间。如果同步代码块种的内容过于简单。状态切换消耗的时间可能比用户代码执行的时间还要长。 在许多场景中,同步资源的锁定时间很短,为了这一…

【.NET Core】C#编程规范

【.NET Core】C#编程规范 文章目录 【.NET Core】C#编程规范一、概述1.1 结构清晰第一1.2 简洁之风1.3 代码风格保持一致性 二、命名约定三、类型参数命名指南3.1 请使用描述性名称命名泛型类型参数,除非单个字面名称完全具有自我说明性且描述性名称不会增加任何作用…

当Diffusion遇到Transformer

Diffusion与Tranformer结合的代表性文章 一、DiT 题目: Scalable Diffusion Models with Transformers 机构:UC Berkeley,纽约大学 论文: https://arxiv.org/pdf/2212.09748.pdf 代码:https://github.com/facebookresearch/DiT 任务: 图像生…

SQL Developer 小贴士:显示RAC配置

前提: 已建立2节点RAC已在SQL Developer中建立了2个连接,分别到RAC的两个节点 然后单击菜单View>DBA,分别连接RAC节点1和节点2,并组织成目录(不必须,但建议)。 在两处可以体现为RAC配置。第…

第3.2章:Doris-2.0数据导入——Compaction机制

目录 一、Compaction概述 1.1 LSM-Tree概述 1.2 Compaction概述 1.3 Rowset数据版本 1.4 Compaction优点 1.5 Compaction问题 1.5.1 Compaction速度低 1.5.2 写放大问题 1.6 Compaction调优 1.6.1 业务侧 1.6.2 运维侧 二、Compaction执行方式 2.1 Vertical Com…

成都力寰璨泓科技有限公司抖音小店品质保障

在数字化浪潮席卷全球的今天,网络购物已成为人们日常生活的重要组成部分。抖音小店作为新兴的电商平台,凭借其独特的社交属性和个性化推荐机制,吸引了众多消费者的目光。在众多抖音小店中,成都力寰璨泓科技有限公司的店铺以其卓越…

春招面试准备笔记——NMS(非极大值抑制)算法

NMS(非极大值抑制)算法非极大值抑制是用于减少物体检测算法中重叠边界框或区域的数量的技术。通过对每个类别的检测框按置信度排序,然后逐个遍历,保留置信度最高的框,并抑制与其重叠且置信度低的框,从而得到…

打通全渠道,聚道云助力时尚巨头提升运营效能

客户介绍: 北京某时尚有限公司是一家集设计、生产、销售于一体的时尚产业领军企业。自成立以来,该公司一直秉承着对时尚的独特理解和不懈追求,以打造高品质、高品位的时尚产品为己任,深受国内外消费者的喜爱。 客户痛点&#xff…

23款奔驰GLC260L升级固定踏板 豪华氛围灯 浪漫的气氛

奔驰看内饰,但23款GLC260L十一月份后的车 减配了豪华氛围灯 ,内饰瞬间少了点意思,所以车主过来升级一套豪华氛围灯 前后发光出风口 门板扶手也升级为发光的 顺带升级一套固定踏板 接下来看图,星骏汇小许Xjh15863

SG-8201CJA(汽车可编程晶体振荡器)

爱普生的SG-8021CJA是一款符合AEC-Q100标准的晶体振荡器,专为要求苛刻的汽车/ADAS应用(如激光雷达和相机ECU)而设计。它采用爱普生的内部低噪声小数NPLL,输出 频率高达170MHz,相位抖动小于1/25,稳定性比之前…

【4.3计算机网络】网络规划与设计

目录 1.网络规划2.逻辑网络设计3.物理网络设计 1.网络规划 需求分析->通信规范分析->逻辑网络设计->物理网络设计->实施阶段 2.逻辑网络设计 3.物理网络设计 例题1: 解析:选A。 例题2: 解析:选A。 例题3. 解析&am…

Java 反射 类加载阶段 类加载时机 Class类 Field类 Method类 Constructor类

JAVA反射机制是在运行状态中,对任意一个类,都能知道这个类的所有属性和方法;对任意一个对象,都能够调用它的任意方法和属性,这种动态获取信息以及动态调用对象方法的功能称为java语言的反射机制。 反射(Reflect)是在运…