基于动作合成视频、线免费使用不需要注册,支持多种视频任务:图像生成视频、文本生成视频、视频修改、视频风格化、用Transformer构建世界模型

基于动作合成视频、线免费使用不需要注册,支持多种视频任务:图像生成视频、文本生成视频、视频修改、视频风格化、用Transformer构建世界模型。

WorldDreamer无缝逐帧AI模型: 基于Transformer生成高质量电影级别视频的通用世界模型"。从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成。

WorldDreamer是一个基于Transformer的通用世界模型,能够完成自然场景和自动驾驶场景多种视频生成任务,如文生视频、图生视频、视频编辑、动作序列生视频等。该模型从20亿数据中学习物理世界,通过预测Token的方式建立通用场景世界模型,将视频生成转换为序列预测任务,从而对物理世界的变化和运动规律进行充分地学习。可视化实验证明,WorldDreamer深刻理解了通用世界的动态变化规律。
在这里插入图片描述
WorldDreamer的原理是将视频生成转换为一个序列预测任务,通过预测被掩码的视觉Token来生成视频。它采用Transformer架构,借鉴大型语言模型的成功经验,将世界模型建模框架转换为一个无监督的视觉Token预测问题。

WorldDreamer的特点是能够完成多种视频生成任务,包括但不限于图像生成视频、文本生成视频、视频修改、视频风格化和基于动作合成视频等。它具有生成高质量电影级别视频的能力,其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。

WorldDreamer的用途包括但不限于:

自动驾驶场景下的驾驶动作到视频的生成
从文本生成视频、从单一图像预测未来的帧
根据语言的输入可以更改被mask区域的视频内容、以及改变视频的风格等。

它可以完成自然场景和自动驾驶场景多种视频生成任务,例如文生视频、图生视频、视频编辑、动作序列生视频等。

据团队介绍,通过预测Token的方式来建立通用场景世界模型,WorldDreamer是业界首个。

它把视频生成转换为一个序列预测任务,可以对物理世界的变化和运动规律进行充分地学习。

可视化实验已经证明,WorldDreamer已经深刻理解了通用世界的动态变化规律。

那么,它都能完成哪些视频任务,效果如何呢?

支持多种视频任务
图像生成视频(Image to Video)
WorldDreamer可以基于单一图像预测未来的帧。

只需首张图像输入,WorldDreamer将剩余的视频帧视为被掩码的视觉Token,并对这部分Token进行预测。

如下图所示,WorldDreamer具有生成高质量电影级别视频的能力。

其生成的视频呈现出无缝的逐帧运动,类似于真实电影中流畅的摄像机运动。

而且,这些视频严格遵循原始图像的约束,确保帧构图的显著一致性。

在这里插入图片描述
文本生成视频(Text to Video)
WorldDreamer还可以基于文本进行视频生成。

仅仅给定语言文本输入,此时WorldDreamer认为所有的视频帧都是被掩码的视觉Token,并对这部分Token进行预测。

下图展示了WorldDreamer在各种风格范式下从文本生成视频的能力。

生成的视频与输入语言无缝契合,其中用户输入的语言可以塑造视频内容、风格和相机运动。
在这里插入图片描述

视频修改(Video Inpainting)
WorldDreamer进一步可以实现视频的inpainting任务。

具体来说,给定一段视频,用户可以指定mask区域,然后根据语言的输入可以更改被mask区域的视频内容。

如下图所示,WorldDreamer可以将水母更换为熊,也可以将蜥蜴更换为猴子,且更换后的视频高度符合用户的语言描述。

在这里插入图片描述

视频风格化(Video Stylization)
除此以外,WorldDreamer可以实现视频的风格化。

如下图所示,输入一个视频段,其中某些像素被随机掩码,WorldDreamer可以改变视频的风格,例如根据输入语言创建秋季主题效果。
在这里插入图片描述
基于动作合成视频(Action to Video)
WorldDreamer也可以实现在自动驾驶场景下的驾驶动作到视频的生成。

如下图所示,给定相同的初始帧以及不同的驾驶策略(如左转、右转),WorldDreamer可以生成高度符合首帧约束以及驾驶策略的视频。

在这里插入图片描述

那么,WorldDreamer又是怎样实现这些功能的呢?

用Transformer构建世界模型
研究人员认为,目前最先进的视频生成方法主要分为两类——基于Transformer的方法和基于扩散模型的方法。

利用Transformer进行Token预测可以高效学习到视频信号的动态信息,并可以复用大语言模型社区的经验,因此,基于Transformer的方案是学习通用世界模型的一种有效途径。

而基于扩散模型的方法难以在单一模型内整合多种模态,且难以拓展到更大参数,因此很难学习到通用世界的变化和运动规律。

而当前的世界模型研究主要集中在游戏、机器人和自动驾驶领域,缺乏全面捕捉通用世界变化和运动规律的能力。

所以,研究团队提出了WorldDreamer来加强对通用世界的变化和运动规律的学习理解,从而显著增强视频生成的能力。

借鉴大型语言模型的成功经验,WorldDreamer采用Transformer架构,将世界模型建模框架转换为一个无监督的视觉Token预测问题。

具体的模型结构如下图所示:

在这里插入图片描述

WorldDreamer首先使用视觉Tokenizer将视觉信号(图像和视频)编码为离散的Token。

这些Token在经过掩蔽处理后,输入给研究团队提出的Sptial Temporal Patchwuse Transformer(STPT)模块。

同时,文本和动作信号被分别编码为对应的特征向量,以作为多模态特征一并输入给STPT。

STPT在内部对视觉、语言、动作等特征进行充分的交互学习,并可以预测被掩码部分的视觉Token。

最终,这些预测出的视觉Token可以用来完成各种各样的视频生成和视频编辑任务。

在这里插入图片描述
在这里插入图片描述

值得注意的是,在训练WorldDreamer时,研究团队还构建了Visual-Text-Action(视觉-文本-动作)数据的三元组,训练时的损失函数仅涉及预测被掩蔽的视觉Token,没有额外的监督信号。

而在团队提出的这个数据三元组中,只有视觉信息是必须的,也就是说,即使在没有文本或动作数据的情况下,依然可以进行WorldDreamer的训练。

这种模式不仅降低了数据收集的难度,还使得WorldDreamer可以支持在没有已知或只有单一条件的情况下完成视频生成任务。

研究团队使用大量数据对WorldDreamer进行训练,其中包括20亿经过清洗的图像数据、1000万段通用场景的视频、50万段高质量语言标注的视频、以及近千段自动驾驶场景视频。

团队对10亿级别的可学习参数进行了百万次迭代训练,收敛后的WorldDreamer逐渐理解了物理世界的变化和运动规律,并拥有了各种的视频生成和视频编辑能力。

论文地址:https://arxiv.org/abs/2401.09985

项目主页:https://world-dreamer.github.io/

更多作品:https://heehel.com/category/ai-works

AIGC专区:https://heehel.com/category/aigc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/462126.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring基础 - Spring简单例子引入Spring要点

Spring基础 - Spring简单例子引入Spring要点 设计一个Spring的Hello World 设计一个查询用户的案例的两个需求&#xff0c;来看Spring框架帮我们简化了什么开发工作 pom依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"htt…

问题:孔隙比总是1.0。 #知识分享#微信

问题&#xff1a;孔隙比总是1.0。 /ananas/latex/p/1242 参考答案如图所示

Android应用图标微技巧,8.0系统中应用图标的适配

大家好,2018年的第一篇文章到的稍微有点迟,也是因为在上一个Glide系列结束之后一直还没想到什么好的新题材。 现在已经进入了2018年,Android 8.0系统也逐渐开始普及起来了。三星今年推出的最新旗舰机Galaxy S9已经搭载了Android 8.0系统,紧接着小米、华为、OV等国产手机厂…

基于BatchNorm的模型剪枝【详解+代码】

文章目录 1、BatchNorm&#xff08;BN&#xff09;2、L1与L2正则化2.1 L1与L2的导数及其应用2.2 论文核心点 3、模型剪枝的流程 ICCV经典论文&#xff0c;通俗易懂&#xff01;论文题目&#xff1a;Learning Efficient Convolutional Networks through Network Slimming卷积后能…

如何写一个其他人可以使用的GitHub Action

前言 在GitHub中&#xff0c;你肯定会使用GitHub Actions自动部署一个项目到GitHub Page上&#xff0c;在这个过程中总要使用workflows工作流&#xff0c;并在其中使用action&#xff0c;在这个使用的过程中&#xff0c;总会好奇怎么去写一个action呢&#xff0c;所以&#xff…

亲测解决vscode的debug用不了、点了没反应

这个问题在小虎登录vscode同步了设置后出现,原因是launch文件被修改或删除。解决方法是重新添加launch。 坏境配置 win11 + vscode 解决方法 Ctrl + shift + P,搜索debug添加配置: 选择python debugger。 结果生成了一个文件在当前路径: launch内容: {// Use Int…

【Java八股面试系列】JVM-垃圾回收

目录 垃圾回收 堆空间的基本结构 内存分配和回收原则 分代收集机制 Minor GC 流程 空间分配担保 老年代 大对象直接进入老年代 长期存活的对象将进入老年代 GC的区域 对象存活判定算法 引用计数法 可达性分析算法 finalize() 字符串常量判活 类判活 垃圾回收算…

网络原理——数据链路层

以太网是数据链路层的核心协议 1. 以太网数据帧的组成部分 帧起始符&#xff08;Preamble&#xff09;&#xff1a;8字节的连续数据0xAA&#xff0c;标识一个新数据帧的开始&#xff0c;用于同步收发双方的时钟。 目的MAC地址&#xff08;Destination MAC Address&#xff09…

微软.NET6开发的C#特性——委托和事件

我是荔园微风&#xff0c;作为一名在IT界整整25年的老兵&#xff0c;看到不少初学者在学习编程语言的过程中如此的痛苦&#xff0c;我决定做点什么&#xff0c;下面我就重点讲讲微软.NET6开发人员需要知道的C#特性&#xff0c;然后比较其他各种语言进行认识。 C#经历了多年发展…

Lua 教程

Lua 教程 (今天又又又开新坑啦) Lua 教程 手册简介 Lua 是一种轻量小巧的脚本语言&#xff0c;用标准C语言编写并以源代码形式开放。 手册说明 Lua是什么? Lua 是一个小巧的脚本语言。是巴西里约热内卢天主教大学&#xff08;Pontifical Catholic University of Rio de …

flink反压及解决思路和实操

1. 反压原因 反压其实就是 task 处理不过来&#xff0c;算子的 sub-task 需要处理的数据量 > 能够处理的数据量&#xff0c;比如&#xff1a; 当前某个 sub-task 只能处理 1w qps 的数据&#xff0c;但实际上到来 2w qps 的数据&#xff0c;但是实际只能处理 1w 条&#…

年-月-日的输入方法

大家对于输入的函数一定有所认识&#xff0c;比如c中位于 #include <iostream> 中的 cin 函数&#xff0c;这个函数输入单个十分好用&#xff0c;但是对于年月日这种较为复杂的就行不通了&#xff0c;就只能输入最前面的一个 那怎么输入像这样的年月日呢 答案就是用 scan…