3分钟了解科技前沿“Sora”-编程知识

如果需要使用Sora或者GPT4，请参考文章：如何使用Sora？Sora小白教程一文通

什么是Sora

Sora是OpenAI于2024年2月18日凌晨发布的新的文生视频大模型，名为 “ Sora ”。从OpenAI在官网展示的Sora生成视频的效果来看，在生成视频质量、分辨率、文本语义还原、视频动作一致性、可控性、细节、色彩等方面非常好！

特别是可以生成最长1分钟的视频！生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系，并且镜头丝滑可变。超过Gen-2、SVD-XT、Pika等主流产品，一出手就是王炸。

Sora能做什么？

使用Sora非常简单，只需在提示框中输入单词、短语或句子，Sora就会根据这些信息自动生成场景。它目前可以达到这些效果：

能够生成长达一分钟的视频，同时保持视觉质量和对用户提示的忠实度。

能够生成包含多个角色、特定类型的运动和背景的精确细节的复杂场景。

模型不仅理解用户在提示中要求的内容，还理解这些内容在物理世界中的存在方式。

OpenAI表示，Sora可以生成包含几个角色、特定类型的动作以及详细的主题和背景的复杂场景。模型“不仅理解用户在提示中请求的内容，还理解这些事物在物理世界中是如何存在的”。

Sora有多准确？

根据OpenAI在twitter上发布的初始示例和创作者在社交媒体平台上的建议，Sora能够根据提示准确地创建视频。

Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood. 翻译：一位头发整齐梳理的祖母站在木制餐桌后面，桌上摆放着一个五彩缤纷的生日蛋糕，上面点着许多蜡烛，她的表情洋溢着纯粹的喜悦和幸福，眼中闪烁着快乐的光芒。她向前倾身，轻轻吹灭了蜡烛，蛋糕上涂着粉红色的糖霜和彩色糖粒，蜡烛的火焰也熄灭了，祖母穿着一件淡蓝色的上衣，上面点缀着花卉图案，可以看到几位快乐的朋友和家人坐在餐桌旁庆祝，但是他们处于焦点之外。这个场景被美丽地拍摄下来，有电影般的感觉，展示了祖母和餐厅的三分之四视角。温暖的色调和柔和的光线增强了氛围。

但openai也承认，当前的Sora模型存在不足之处。即“它可能在准确模拟复杂场景的物理特性方面存在困难，可能不理解特定的因果关系实例。”

Sora最大的技术突破是什么？

目前，文生视频领域因为帧间依赖处理、训练数据、算力资源、过拟合等原因，一直无法生成高质量的长视频。

Sora最大技术突破是，可以在保持质量的前提下，生成1分钟的视频，在业内非常罕见。这也再次展示了OpenAI在大模型领域超强的技术研发能力。

Sora原理概述

Sora是一种扩散模型，主要通过静态噪音的视频开始生成视频，然后再通过多个步骤去除噪音，逐渐转换视频。

Sora与ChatGPT一样采用的是Transformer架构，并使用了DALL-E 3中的重述技术，是一种为视觉训练数据生成高精准描述性的字幕。所以，Sora在生成视频过程中精准还原用户的文本提示语义。

Sora引发全球的关注

Sora的横空出世引发了全球的关注，网民纷纷惊叹于人工智能的高速发展，一众大V也发表观点。

360创始人周鸿祎对Sora给予了极高的评价，他认为，Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。

周鸿祎认为，科技竞争最终比拼的是让人才密度和深厚积累，“很多人说Sora的效果吊打Pika和Runway。这很正常，和创业者团队比，OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。”

他还提到，尽管国内大模型发展水平表面看已经接近GPT-3.5，但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器，无论是GPT-5，还是机器自我学习自动产生内容，“奥特曼（OpenAI CEO）是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。

Sora发布后数小时，马斯克在社交媒体上回复了“gg humans”，gg为Good Games缩写，代指“打得好，我认输” 。之后马斯克还称，通过AI增强的人类将在未来几年创造出最好的作品。

Sora是否向公众开放，是否免费？ OpenAI表示，目前Sora向“红队成员”开放，即能够评估风险并识别潜在问题（如错误信息、偏见和仇恨内容）的专家。他们将“对抗性”地测试模型。

Sora还将对一些视觉艺术家、设计师和电影制作人开放——根据OpenAI首席执行官Sam Altman的说法，这是“有限数量的创作者”，以获取反馈，以改进平台，使其对创意专业人士更有用。

目前，对这些用户而言，Sora是免费的，他们将获得模型的早期访问权限。

然而，目前尚不清楚一旦Sora向公众开放，OpenAI是否会收取费用。OpenAI已经推出了ChatGPT和其图像创建工具Dall-E的付费模型。

Sora是否安全？就像任何其他AI平台一样，对Sora可以生成的内容存在担忧。OpenAI表示，它正在努力解决这些问题。

除了与红队成员合作外，OpenAI表示，它还在构建工具来帮助检测误导性内容，包括一个可以识别视频是否由Sora生成的“检测分类器”。

OpenAI的文本分类器将“检查并拒绝违反我们使用政策的文本输入提示”，例如当用户请求与极端暴力、色情内容、仇恨图像、名人肖像或他人的知识产权相关的内容时。

OpenAI还表示，它将与全世界的政策制定者、教育工作者和艺术家合作，“了解他们的担忧，并识别这项新技术的积极用例”。

Sora对未来影响几何？哪些人会因此失业不可否认，技术的变革是把双刃剑，在关注应用前景的同时也有不少人担忧会被AI抢了饭碗。

目前最容易受到影响的或许是影视行业的从业者。例如视频剪辑师、后期制作这类岗位，视频模型Sora能够自动或半自动地生成视频，这可能会导致传统的视频制作和编辑职位的需求下降。后期制作包括剪辑、特效、音效等环节，这些工作也可以通过AI技术进行自动化或半自动化处理。

但是，Sora 的出现让世界看到了人工智能的无限可能。2024年第一块坚实的里程碑落下了，带给人类的依旧是希望大于绝望。因此不一定会造成失业潮。相反，它可能促使视频行业朝着更高端、更创新的方向发展。