VideoComposer: Compositional Video Synthesis with Motion Controllability

在这里插入图片描述
decompose videos into three distinct types of conditions: textual conditions, spatial conditions, temperal conditions

  1. 条件的内容:
    a. textual condition: coarse grained visual content and motions, 使用openclip vit-H/14的text encoder
    b. spatial condition: the goal is to achieve fine-grained spatial control
    ⅰ. single image: a single image reveal the content and structure of this video, 使用视频的第一帧作为图生视频的spatial条件
    ⅱ. single sketch: 使用PiDiNet提取第一帧的sketch
    ⅲ. style: 为了将一张图片的风格迁移到视频,以图片的embedding作为条件,使用OpenCLIP ViT-H/14的image encoder
    c. temporal conditions:
    ⅰ. motion vector: 光流图
    ⅱ. depth sequence: 使用预训练的深度估计模型来提取深度
    ⅲ. mask sequence:为了editing和inpaint任务
    ⅳ. sketch sequence
  2. 条件的处理:所有的condition根据是否经过STC-encoder分为两类,一类是text和style(image embedding),通过cross attention来进行交互,另一类经过STC-encoder的condition,处理后的尺寸和视频的latent一样,所有的condition先首先element-wise add操作,之后和 x t x_t xt进行拼接输入到网络当中;
  3. 训练策略:两阶段训练,首先是预训练阶段,然后是带条件的视频生成训练;
  4. 推理:使用classifier free guidance ϵ ^ θ ( z t , c , t ) = ϵ θ ( z t , c 1 , t ) + w ( ϵ θ ( z t , c 2 , t ) − ϵ θ ( z t , c 1 , t ) ) \widehat\epsilon_\theta(z_t,c,t) = \epsilon_\theta(z_t,c_1,t) + w(\epsilon_\theta(z_t,c_2,t)-\epsilon_\theta(z_t,c_1,t)) ϵ θ(zt,c,t)=ϵθ(zt,c1,t)+w(ϵθ(zt,c2,t)ϵθ(zt,c1,t))其中 c 1 c_1 c1 c 2 c_2 c2是两组条件,强调 c 2 − c 1 c_2-c_1 c2c1的条件,例如在text-driven video inpainting当中, c 2 c_2 c2表示caption+masked video, c 1 c_1 c1表示masked video;
  5. 实验:
    a. 数据:使用了两个数据集webvid10M和LAION-400M
    b. 评价指标:
    ⅰ. 帧间一致性指标:计算相邻两帧的CLIP cosine similarity
    ⅱ. motion control: 计算像素的预测光流和GT的欧式距离;
    c. 首先展示了模型在组合控制条件来控制视频生成上面的能力,包括图生视频(+text)和视频inpainting以及根据sketch生成视频的能力,并展示相应的可视化效果;
    d. 展示motion control的能力:
    e. 消融实验:验证STC-encoder的有效性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/641995.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker 虚拟化与docker的概念

一、云计算的三种服务模式 laas、pass、saas 1.1 IaaS: Infrastructure-as-a-Service(基础设施即服务) 第一层叫做IaaS,有时候也叫做Hardware-as-a-Service,几年前如果你想在办公室或者公司的网站上运行一些企业应用&#xff0c…

最大神经系统Hala Point正式亮相,AI算力新标杆诞生!

英特尔宣布推出 Hala Point 前言 就在近日,英特尔公司宣布推出了目前以来最大的神经系统Hala Point。目前看来该系统将用于支持未来的、受大脑启发的AI研究项目,解决与AI模型可持续性相关的挑战等任务上。那么Hala Point究竟有什么魅力呢?我们…

这就叫专业,安防监控领域的可视化效果走一波!

设计安防监控领域的可视化大屏时,需要考虑以下几个方面: 显示实时监控画面: 将监控摄像头的实时画面显示在大屏上,以便实时观察和监控各个区域的情况。可以使用分割屏幕的方式,同时显示多个监控画面。 报警和事件显示…

网络工程师的网络故障排除方法(非常详细)零基础入门到精通,收藏这一篇就够了

网络故障是在日常工作中经常会遇到的问题,尤其是对于那些经常需要和网络打交道的网络工程师们,对于他们而言,如何才能快速进行网络故障的排查、及时解决网络问题呢?接下来我们来讲讲网络排障的基本思路。 一、首先需要熟悉OSI七层…

接口测试和Mock学习路线(上)

一、接口测试和Mock学习路线-第一阶段: 掌握接口测试的知识体系与学习路线掌握面试常见知识点之 HTTP 协议掌握常用接口测试工具 Postman掌握常用抓包工具 Charles 与 Fiddler结合知名产品实现 mock 测试与接口测试实战练习 1.接口协议: 需要先了解 O…

msvcr120.dll文件缺失的相关修复方法分享,有一键修复msvcr120.dll的方式

关于msvcr120.dll文件缺失的缺失,其实网上已经有很多的方法了,但是有很多事不靠谱的,或者是讲得不太清楚的,所以小编觉还是有需要来给大家详细的讲解一下msvcr120.dll文件缺失的相关修复方法,好了废话不多说&#xff0…

后端工程师——Java工程师招聘要求

后端工程师隶属于软件研发工程师,是从事软件开发相关工作人员,其主要职责是 平台设计、接口设计 和 功能实现。作为后端人员,有很多的就业机会,根据你的编程语言掌握情况、个人经验和薪资追求等,可以申请 Java 开发、 PHP 开发、游戏开发人员或 Web 开发人员等职位。 在国…

网址是怎么做成二维码的?扫码查看网站页面怎么做?

现在很多内容都会使用二维码的方式来实现快速的传递,比如现在通过扫码跳转网站、文章、在线视频等等,就是网址转二维码的一种应用。手机扫描二维码自动跳转对应的链接展示内容,有利于网址的快速分享。那么网址二维码制作的方法和步骤是什么样…

服务器基础知识(1)

🐌博主主页:🐌​倔强的大蜗牛🐌​ 📚专栏分类:服务器❤️感谢大家点赞👍收藏⭐评论✍️ 1、什么是服务器 服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务…

C++学习进阶版(二):与文件相关的函数用法

目录 1、读取文件的指定行 (1)main函数中直接读 (2)封装成函数 ① 无返回值类型 ② 直接返回读取的内容 2、求文件的行数 3、文件内容读取成一个字符串 1、读取文件的指定行 (1)main函数中直接读 …

快速排序题目SelectK问题(力扣75.颜色分类、力扣215.数组中的第K个最大元素、面试题17.14最小K个数)

力扣75.颜色分类 给定一个包含红色、白色和蓝色、共 n 个元素的数组 nums ,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。 我们使用整数 0、 1 和 2 分别表示红色、白色和蓝色。 必须在不使用库内置的 sor…

C++:基础语法

一、命名空间 在C/C中,变量、函数和后面要学到的类都是大量存在的,这些变量、函数和类的名称将都存在于全局作用域中,可能会导致很多冲突。使用命名空间的目的是对标识符的名称进行本地化, 以避免命名冲突或名字污染,n…