近日,OpenAI突然发布的首个文生视频模型:Sora(Sora 在日语中是“天空”的意思,引申含义还有“自由”的意思),大幅刷新行业多个指标,重新定义了AI文生视频在现阶段的技术极限,颠覆了生成式AI在视频领域的全球市场格局,给2024年开年后的AI生成世界扔了个“王炸”。
01
Sora为啥牛
Sora生成视频:穿过东京郊区的火车窗外
从业内反应来看,Sora最令人震撼的技术突破莫过于视频时长的巨大提升。Sora能生成长达1分钟的视频,远超市面上其他AI视频模型。通过简单的文本指令,Sora就可以直接输出长达60秒的视频,不仅背景细致入微,而且包含了复杂的多角度镜头和富有情感的多个角色。
核心技术:Sora使用了Transformer架构,建立在DALL·E 3和GPT模型之上,可以生成长达1分钟的有运动、多机位视频。相比业界水平,Sora 将视频生成的时长一次性提升了15倍,直接迈过了市面上所有短视频的时长要求。
核心改变:Sora带有世界模型的特质。所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。世界模型会让AI视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。
例如:Sora 的世界模型,已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的倾斜和颠簸感。
图/OpenAI 官网,为 Sora 生成的视频,部分截取
核心应用:
一是以文本生成视频
提示词为“考古学家在沙漠中发现了一把普通的塑料椅子,正小心翼翼地挖掘和除尘”,Sora生成的视频出现了椅子变形、自动行走等诡异的场景。
Sora生成视频。提示词为:几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来。
二是以静态图片生成视频
三是可以使用Sora连接两个输入视频 ,在具有完全不同主题和场景组成的视频之间实现无缝过渡。
Sora也存有以下弱点:
可能难以准确模拟复杂场景的物理原理,无法理解因果关系,混淆提示的空间细节,难以精确描述随着时间推移发生的事件 。
例如,在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中,狼的数量会变化,一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡 。
目前的 Sora 也有“翻车”生成,如果这个能安慰到你的话丨Sora
OpenAI表示,Sora存在不成熟之处,可能难以理解因果关系,多位人工智能领域人士表示,该问题可能因其概率模式的逻辑存有“硬伤”。加大训练量、增加训练数据与物理逻辑可改善该问题,但无法根治。想要真正突破最底层逻辑上的问题,因果关系是一条必经之路。
02
对社会有何影响
如果说ChatGPT是语言大师,那么Sora则是一个多模态数据的通才。
有学者提出,Sora的出现将深刻影响10个行业,包括短视频行业、影视行业、游戏行业、广告行业、教育行业、电商行业、制造业、科学研究、建筑行业、艺术创作行业等。美国一家权威媒体更是给出了Sora对社会影响的预测:
1.内容创作与视频行业
对于广告业、电影预告片和短视频行业,Sora可能会带来巨大的颠覆。它能够生成逼真的视频,减少对真人演员和导演的依赖,降低制作成本。在音乐和娱乐行业,Sora可以用于制作音乐视频(MV),节省制作成本并提高创意表达的可能性。
2.教育与培训
Sora可以用于创建教育视频,帮助学生更好地理解复杂的概念和历史事件,提供更加生动和互动的学习体验。在企业培训中,Sora可以生成定制化的教学视频,提高培训材料的吸引力和效果。
3.个人生活
对于普通用户,Sora提供了一种新的娱乐和创作工具。人们可以轻松地根据自己的想象创作视频,分享到社交媒体,丰富个人表达方式。
4.职业变革
Sora可能会改变视频制作、剪辑、动画设计等职业的工作方式,减少对传统视频制作技能的需求,同时创造新的职业机会,如AI视频内容策划和编辑。对于那些依赖于视频内容创作的自由职业者,Sora提供了新的创作工具,但也可能带来竞争压力,要求他们提升创意和内容的独特性。
5.技术伦理与法律问题
Sora生成的视频可能会引发关于版权、隐私和数据安全的问题。如何确保AI生成的内容不侵犯他人权益,不传播虚假信息,成为一个亟待解决的问题。
随着AI生成内容的真实性越来越高,如何区分真实视频和AI生成视频,以及如何确保内容的真实性和透明度,将成为社会需要共同面对的挑战。
03
对新闻业的影响
Sora这一颠覆性的AI生成技术的到来无疑对新闻业领域会带来影响。尤其当下的主流媒体都有“视频记者”这一工作种类,Sora的到来对其影响较大。
复旦大学新闻学院教授、博士生导师邓建国在接受中新社“庖丁解news”专访时表示,“视频记者”这四个字中重要的不是“视频”而是“记者”。新闻报道追求真实(facts),而Sora全是虚拟(fictional),因此它从本质上对新闻业只有坏处没有好处。它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。
Sora生成视频:舞龙
由于Sora技术中具有“世界模型”的构建能力,因此未来生活中可能真的会出现我们期待的“元宇宙”。“Sora可以基于一段文字、图片和视频提示(prompt),理解它并根据相应的物理原理在时空上向过去或未来推演,因此而形成60秒钟的视频。”邓建国教授表示,Sora不是一些人所说的“导致了物理原理的消失”,而是证明了物理原理的强大,也正是因为这一能力,Sora被称为“世界模型”(world model)或者“世界模拟器”(world simulator),因为它具有根据已有信息建模出一个未来可能的世界的能力。
邓建国教授进一步指出,我们此前用文字建构世界,比如曹雪芹用美轮美奂的文字建构了“大观园”,我们通过自己的想象力对其进行可视化;今天同样用文字,我们则可以用技术对其进行可视化。Sora 所基于的技术,如芯片算力、算法以及图形渲染引擎Unreal Engine 5等,都是建设元宇宙的基础设施,因此Sora是向着元宇宙方向的迈进。
中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋在《新京报》评论撰文认为,短视频时代,Sora既然可与人工媲美,制造短视频的专门团队可能就面临下岗危险。要知道,短视频的摄影、导演、剪辑等任务,Sora“一个人”费点电就全包了。
“我们一直在说,传播业已经发生了‘视觉转向’(a visual turn),但ChatGPT、Midjourney、 Stable Diffusion 和Sora似乎告诉我们,文字是一切媒介之母。影视业和短视频从业者仍然不能抛弃文字,而要精通文字表达。”