重磅!OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

文章目录

  • 1 卓越能力
    • 1.1 60s超长时间 高度详细复杂的场景
    • 1.2 复杂的相机运动
    • 1.3 同一场景多个镜头
  • 2 技术原理
  • 3 不足
  • 4 安全战略
  • 5 碎碎念

OpenAI发布文生视频模型Sora——视频模型的奇点或许来临!!

初七啦,得开始工作了,没想到第一天就这么劲爆!

今天OpenAI迎来重大更新——发布视频模型Sora!!

官网Sora (openai.com)

请添加图片描述

说实话有点惊艳,在AI圈子里好多头部内容创作者看到都禁不住国粹了!

除了能够仅根据文本说明生成视频外(文生视频)

该模型还能够获取现有的静止图像并从中生成视频,从而准确无误地对图像内容进行动画处理,并注重小细节(图生视频)

该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧(帧填充)

目前更新只放出来了文生视频模式,并且只开放了一部分的内测,但已经激起了巨大的浪潮

1 卓越能力

1.1 60s超长时间 高度详细复杂的场景

Sora 能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些内容在物理世界中的存在方式

不仅细节感拉满,而且可以达到60s!!!

如下所示提示词:

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

提示词:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

可以生成如下的视频

tokyo-walk

点击链接查看视频
cdn.openai.com/sora/videos/tokyo-walk.mp4

1.2 复杂的相机运动

之前如果有关注过AI视频的朋友应该了解,之前的AI视频的相机即便是固定的,一动不动的,给人一种很呆板不真实的感觉,但Sora竟然可以实现很复杂的相机运镜,完全和真实拍摄无法区分

如下提示词

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

提示:无人机视角,海浪拍打着大苏尔加雷角海滩崎岖的悬崖。汹涌澎湃的蓝色海水掀起白色的波浪,而夕阳的金色光芒照亮了岩石海岸。远处有一个带灯塔的小岛,绿色的灌木丛覆盖着悬崖的边缘。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖的边缘突出在海面上。这捕捉到了海岸的原始美景和太平洋海岸公路崎岖的景观。

可以生成如下的视频

big-sur

点击链接查看视频
https://cdn.openai.com/sora/videos/big-sur.mp4

1.3 同一场景多个镜头

该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora 还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。

如下提示词

Prompt:A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

电影预告片,讲述了30岁的太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天,盐沙漠,电影风格,用35毫米胶片拍摄,色彩鲜艳。

可以生成如下视频

mitten-astronaut

点击链接查看视频
https://cdn.openai.com/sora/videos/mitten-astronaut.mp4

2 技术原理

Sora是扩散模型,生成一个视频通过一个静止的噪声开始,然后逐步移除噪声,同时核心架构还是用的Transformer,建立在DALLE3和GPT上

通过让模型一次看到许多帧,他们解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

他们将视频和图像表示为称为patch的较小数据单元的集合,每个patch都类似于 GPT 中的一个token。通过统一表示数据的方式,可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

3 不足

Sora官方也谦虚的指出了自己的模型存在的不足

  1. 可能难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例。例如,一个人可能会咬一口饼干,但之后,饼干可能没有咬痕。
  2. 还会混淆提示的空间细节,例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,例如遵循特定的摄像机轨迹。

4 安全战略

针对安全方面

Sora和Red teamers(一家专注于提高IT安全的公司)合作,建造工具来区别一个视频是否是AI生成的,也会努力避免政治类,暴力类的视频生成

并且呼吁社会各界积极反馈,避免视频模型的滥用

5 碎碎念

在Sora官网最后,Sora官方说到

Sora serves as a foundation for models that can understand and simulate the real world, a capability we believe will be an important milestone for achieving AGI.

Sora是能够理解和模拟现实世界的模型的基础,我们相信这一能力将是实现AGI的重要里程碑。

在一些AI圈子里,看到人一些人们的热烈讨论

一些人说“有生第一次觉得,AI能不能技术发展不要那么快……”

AI头部大号卡兹克也第一时间发了文章,说到“现实,不存在了”

每一次的技术的重大更新,总是惊喜,恐惧并存

与其恐惧

不妨告诉自己

事情变得越来有趣了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/471913.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

彻底理解无刷电机

前言 现在很多设备都是搭载的无刷电机而不是有刷电机了,为啥?性能好啊! 引入 同性相斥异性相吸 可以看出,只要改变磁铁的极性,电机就能转起来 那 怎么改变磁铁极性呢? 右手螺旋定则可以根据电流的流向…

tcp 中使用的定时器

定时器的使用场景主要有两种。 (1)周期性任务 这是定时器最常用的一种场景,比如 tcp 中的 keepalive 定时器,起到 tcp 连接的两端保活的作用,周期性发送数据包,如果对端回复报文,说明对端还活着…

阿里云香港服务器租用优惠价格表,2024更新

阿里云香港服务器2核1G、30M带宽、40GB ESSD系统盘优惠价格24元/月,288元一年,每月流量1024GB,多配置可选,官方优惠活动入口 https://t.aliyun.com/U/bLynLC 阿里云服务器网aliyunfuwuqi.com分享阿里云香港服务器优惠活动、详细配…

如何在30天内使用python制作一个卡牌游戏

如何在30天内使用python制作一个卡牌游戏 第1-5天:规划和设计第6-10天:搭建游戏框架第11-20天:核心游戏机制开发第21-25天:游戏界面和用户体验第26-30天:测试和发布附加建议游戏类型游戏规则设计界面设计技术选型第6-…

【机器学习】数据清洗之识别重复点

🎈个人主页:甜美的江 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:机器学习 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步…

2024/02/13

21 、C 22 、D 23、B 如果5先出栈那么1,2,3,4就已经入栈了,5出后4出,1要出栈必须先让3,2出栈,所以 不可能输出B 24、10,12,120 25、2,5 26、段错…

分布式锁redisson

文章目录 1. 分布式锁1.1 基本原理和实现方式对比synchronized锁在集群模式下的问题多jvm使用同一个锁监视器分布式锁概念分布式锁须满足的条件分布式锁的实现 1.2 基于Redis的分布式锁获取锁&释放锁操作示例 基于Redis实现分布式锁初级版本ILock接口SimpleRedisLock使用示…

网络安全防御保护 Day5

今天的任务如下 要求一的解决方法: 前面这些都是在防火墙FW1上的配置。 首先创建电信的NAT策略 这里新建转换后的地址池 移动同理,不过地址池不一样 要求二的解决方法: 切换至服务器映射选项,点击新建,配置外网通过…

0102awvs安装-扫描-信息收集

1 安装awvs23.7 解压压缩包,解压密码网站网址,下载地址在最后链接双击acunetix_23.7.230728157.exe安装程序 安装位置默认,如更改位置,后面需要更改bat文件相应内容 设置管理员信息 next直到浏览器跳出登录界面 2 运行运行www.dd…

不同AI分析错误代码的差异:谁更胜一筹?谁才是最强者?结果出乎意料!

先祝大家新春快乐,我已经提前三天上班了~~为了年后新框架能上线运行,这几天没人打扰,能安静地冲一下代码,嘎嘎嘎。 准备 错误代码: ... foreach($arr_config[path] as $value_path) {if(file_exists($value_path)){r…

分布式文件系统 SpringBoot+FastDFS+Vue.js【四】

分布式文件系统 SpringBootFastDFSVue.js【四】 八、文件的下载和删除功能8.1.FastDFSClient.java8.2.FileServerController.java8.3.Vue的fast.js8.4.fastdfsimg.vue8.5.效果 九、总结endl 八、文件的下载和删除功能 8.1.FastDFSClient.java Slf4j public class FastDFSClie…

【lesson56】生产者消费者模型

文章目录 学习生产者消费者模型过程中要回答的两个问题生产者消费者模型的概念基于阻塞队列的生产者消费者模型编码实现Common.hLockGuard.hppCondtion.hppBlockQueue.hppTask.hppConProd.cc 学习生产者消费者模型过程中要回答的两个问题 1.条件变量是在条件满足的时候&#x…