OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

一、一觉醒来,AI 视频已变天

早上一觉醒来,群里和朋友圈又被刷屏了。

今年开年 AI 界最大的震撼事件:OpenAI 发布了他们的文生视频大模型 Sora。

OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌!

啥都不说,先来感受一番:

OpenAI Sora 生成视频

再来看看其他由 Sora 生成的视频:

OpenAI Sora 示例视频 big-sur

你还能辨得出真假吗?

OpenAI Sora 示例视频 Kangroo

更多视频效果,大家可以去 OpenAI 的官网浏览。

传送门:https://openai.com/sora

看了 OpenAI 官网 Sora 做出的视频效果,说 Sora 目前是 「AI 视频领域的地表最强」,应该没有人反对吧。

二、OpenAI Sora 有哪些技术突破

一)视频时长的突破

之前更新了一个 AI 视频工具的系列专栏,有的小伙伴私信找我说,为什么推荐的这些 AI 视频工具,都只能生成几秒的视频呀。

确实,在 OpenAI 的 Sora 横空出世之前,AI 视频工具还没有突破视频时长的限制。基本都只能生成几秒的视频。

如果想通过 AI 视频工具生成视频,来做自媒体或其他用途,需要多次生成,再用一些剪辑、特效工具加工后,才能出片。

而 Sora 的出现,突破了 AI 视频领域的这一限制,可以直接生成长达一分钟的视频。

提到时长,瞬间觉得 Pika、Runway 等 AI 视频工具不香了。

二)世界模型

除了视频时长有突破外,Sora 模型不仅了解用户在提示词中要求的内容,还了解这些东西「在物理世界中的存在方式」。

之前听过卡兹克大佬一个关于 AI 视频的分享,在分享中,也提到了「物理规律」这个概念。

比如一拳抡到一个怪物的头上,它是有一个物体的交互的,整个视频的呈现,都是要符合物理世界的规律。

但在 Sora 之前的 AI 视频工具中,这块并没有突破。

而这块如果没有突破,AI 生成的视频,是很难应用到影视或者工业这块的。

但 Sora 的出现,让我们看到了可能性。

比如官网上的这个示例视频,枕头和被子的凹陷,都呈现得非常真实。

OpenAI Sora 官方示例视频 cat-on-bed

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示词:一只猫叫醒熟睡的主人要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食藏匿处,让猫多呆一会儿。

三)单视频多角度镜头

另外,Sora 还可以在单个生成的视频中创建多个角度的镜头,且「一致性」和「稳定性」强得惊人。

这在之前的 AI 视频工具中,是远远达不到的。

可以看官网的视频示例。

三、OpenAI Sora 目前有哪些缺陷

虽然 OpenAI 的 Sora 已经在技术上有了很大突破,但依然存在一些缺陷。

比如,它可能难以准确地模拟复杂场景的物理现象,也可能无法理解因果关系的具体实例。

官方也举了一个例子。

比如,一个人可能咬了一口饼干,但是之后,饼干上可能没有咬痕。

除此之外,该模型还可能混淆提示的空间细节。

例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,比如遵循特定的相机轨迹。

四、OpenAI Sora 技术实现

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。

将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个 token。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。

除了能够仅根据文本说明生成视频外,Sora 模型还能够获取现有的静止图像并从中生成视频,从而准确无误地对图像内容进行动画处理,并注重小细节。

该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧。

更多技术细节,请参考:

https://openai.com/research/video-generation-models-as-world-simulators

一觉醒来,Sora 已颠覆 AI 视频领域,视频、影视、广告等行业将重新洗牌,AGI 还远吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/478154.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

柚见(伙伴匹配系统)第六期

开发主页 开发主页(默认推荐和自己兴趣相当的用户)优化主页的性能(缓存 定时任务 分布式锁) 前端recommend 最简单:直接 list 列表 cv searchResult页面的代码 修改 后端接口 数据内容下边距修改 提取用户信息卡…

11. Springboot集成Dubbo3(二)示例demo

目录 1、前言 2、注册中心 3、快速开始 3.1、添加dubbo3依赖 3.2、dubbo3-api ​编辑 3.3、dubbo3-server 3.3.1、添加依赖 3.3.2、实现IUserService 3.3.3、添加配置文件application.properties 3.3.4、修改Application启动类 3.3.5、出错解决 3.4、dubbo3-porta…

Android widget基础指南

widget的概念最早是由一名叫Rose的苹果工程师提出,后来经过多方面机缘巧合的发展下,便有了今天Android平台上的小组件widget,一般APP开发可能应用场景较少,最常见的莫过于天气APP的widget。但对于从事IOT或车载方向的同学&#xf…

【机器学习笔记】13 降维

降维概述 维数灾难 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这…

SpringMVC 的参数绑定之list集合、Map

标签中name属性的值就是pojo类的属性名 参数绑定4 list [对象] <form action"teaupd.do" method"post"> <c:forEach items"${list}" var"tea" varStatus "status"> 教师编号&#xff1a;<input…

微信小程序开发:appid和secret的获取方法

首先进入小程序官网 - 微信公众平台&#xff1a;https://mp.weixin.qq.com 在开发管理页即可查看 AppID。 AppSecret 需要点击生成&#xff0c;手机扫码后查看。 内容拓展&#xff1a; 当开发微信小程序时&#xff0c;了解和正确使用 AppID 和 AppSecret 是至关重要的。以…

更快找到远程/自由工作的网站

不要使用Fiver或Upwork。 它们已经饱和了。 下面是10个更快找到远程/自由工作的网站&#xff1a; 1. Toptal 这个网站专门为熟练的自由职业者提供远程工作机会&#xff0c;如Shopify和Priceline等一流公司。 他们只接受软件开发、设计和金融等领域的顶级3%自由职业者。 htt…

PyCharm 调试过程中控制台 (Console) 窗口内运行命令 - 实时获取中间状态

PyCharm 调试过程中控制台 [Console] 窗口内运行命令 - 实时获取中间状态 1. yongqiang.py2. Debugger -> Console3. Show Python PromptReferences 1. yongqiang.py #!/usr/bin/env python # -*- coding: utf-8 -*- # yongqiang chengfrom __future__ import absolute_imp…

计算机设计大赛 深度学习人体语义分割在弹幕防遮挡上的实现 - python

文章目录 1 前言1 课题背景2 技术原理和方法2.1基本原理2.2 技术选型和方法 3 实例分割4 实现效果5 最后 1 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; 深度学习人体语义分割在弹幕防遮挡上的应用 该项目较为新颖&#xff0c;适合作为竞…

【软考问题】-- 10 - 知识精讲 - 项目风险管理

一、基本问题 1&#xff1a;按照可预测性&#xff0c;风险分哪三类&#xff1f; &#xff08;1&#xff09;已知风险&#xff1a;如项目目标不明确&#xff0c; 过分乐观的进度计划&#xff0c; 设计或施工变更和材料价格波动等。&#xff08;2&#xff09;可预测风险&#xff…

代码随想录算法训练营第三十六天|435. 无重叠区间 763.划分字母区间 56. 合并区间

435. 无重叠区间 链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 细节&#xff1a; 1. 这道题目和 452.用最少数量的箭引爆气球 &#xff0c;452中的弓箭数量其实就是 无重叠区间的数量&#xff0c;用总的区间数减去 无重叠区间的数…

物骐平台双模蓝牙音频SOC按键功能验证方法

是否需要申请加入数字音频系统研究开发交流答疑群(课题组)&#xff1f;可加我微信hezkz17, 本群提供音频技术答疑服务&#xff0c;群赠送蓝牙音频&#xff0c;DSP音频项目核心开发资料, 概述 WQ7034AX 是一颗高规格蓝牙音频 SoC 芯片&#xff0c; 支持 BT/BLE 5.3 双模协议栈…