gen1-视频生成论文阅读

文章目录

  • 摘要
  • 贡献
  • 算法
    • 3.1 LDM
    • 3.2 时空隐空间扩散
    • 3.3表征内容及结构
      • 内容表征
      • 结构表征
      • 条件机制
      • 采样
    • 3.4优化过程
  • 实验结果
  • 结论

论文: 《Structure and Content-Guided Video Synthesis with Diffusion Models》
官网: https://research.runwayml.com/gen1
github:未开源

摘要

现有编辑视频内容方法在保留结构的同时编辑视频内容需要重新训练,或者跨帧图像编辑传播过程易出错。
本文提出一种结构和内容导向的视频扩散模型,可基于视觉、文本描述编辑视频。结构表征与用户提供内容编辑之间冲突是由于两者不充分解耦导致。对此,作者基于包含各种信息的单个深度估计进行训练,用于保证结构及内容完整度。gen1基于视频及图片联合训练,用于控制时间一致性。作者实验证明在多个方面取得成功:细粒度控制、基于参考图定制生成、用户对模型结果的偏好。

贡献

作者提出的gen1,可控制结构,关注内容的视频扩散模型,由大量无标注视频及成对文本图像数据数据构成。使用单目深度估计优化表征结构,使用预训练模型embedding表征内容。
本文贡献:
1、扩展LDM至视频生成;
2、提出一个关注结构及内容模型,通过参考图或文本引导视频生成;
3、展示对视频时间、内容、结构一致性控制;
4、该模型通过在小数据集finetune,可生成特定目标视频。

算法

在这里插入图片描述
基于纹理结构表征 s s s,文本内容表征 c c c,作者训练生成模型 p ( x ∣ s , c ) p(x|s, c) p(xs,c),生成视频 x x x。整体架构如图2。

3.1 LDM

前向扩散过程如式1, x t − 1 x_{t-1} xt1通过增加正态分布噪声获得 x t x_t xt
在这里插入图片描述
学习去噪过程如式2,3,4,其中方差固定,
在这里插入图片描述
µ θ ( x t , t ) µ_θ(x_t, t) µθ(xt,t)为UNet预测均值,损失函数如式5, µ t ( x t , x 0 ) µ_t(x_t, x_0) µt(xt,x0)为前向后验函数 q ( x t − 1 ∣ x t , x 0 ) q(x_{t−1}|x_t, x_0) q(xt1xt,x0)的均值。

LDM将扩散过程迁移进隐空间。

3.2 时空隐空间扩散

UNet主要有两个block:Residual blocks及transformer blocks,如图3,作者增加1D跨时间卷积,在时间轴学习空间中对应目标,在transformer block中引入基于帧号的位置编码;
在这里插入图片描述
对于 b × n × c × h × w b ×n× c × h ×w b×n×c×h×w的数据,重排为 ( b ⋅ n ) × c × h × w (b·n) × c × h × w (bn)×c×h×w,用于空间层, ( b ⋅ h ⋅ w ) × c × n (b·h·w) × c × n (bhw)×c×n用于时间卷积, ( b ⋅ h ⋅ w ) × n × c (b · h · w) × n × c (bhw)×n×c用于时间self-attention

3.3表征内容及结构

受限于无视频-文本对数据,因此需要从训练视频x提取结构及内容表征;因此每个样本损失函数如式6,
在这里插入图片描述
推理时,结构 s s s及内容 c c c通过输入视频 y y y及文本prompt t t t提取,如式7,x为生成结果。
在这里插入图片描述

内容表征

使用CLIP的image embedding表征内容,训练先验模型,可通过text embedding采样image embedding,使得可通过image输入进行编辑视频。
解码器可视化证明CLIP embedding增加对语义及风格敏感度,同时保持目标大小、位置等几何属性不变。

结构表征

语义先验可能会影响视频中目标形状。但是可以选择合适的表征引导模型降低语义与结构之间相关性。作者发现输入视频帧深度估计提供所需结构信息。
为了保留更多结构信息,作者基于结构表征训练模型,作者通过模糊算子进行扩散与其他增加噪声方法相比,增加稳定性。

条件机制

结构表征视频各帧空间信息,作者使用concat进行使用此信息;
对于内容信息与特定位置无关,因此使用cross-attention,可将此信息传递至各位置。
作者首先基于MiDaS DPT-Large模型对所有输入帧估计深度图,然后使用 t s t_s ts轮模糊及下采样操作,训练过程 t s t_s ts随机采样 0 − T s 0-T_s 0Ts,控制结构保留度,如图10,将扰动深度图重采样至RGB帧分辨率并使用 ϵ \epsilon ϵ进行编码,得到特征与输入 z t z_t zt进行concat输入UNet。
在这里插入图片描述

采样

作者使用DDIM,使用无分类器扩散引导提升采样质量;依据下式进行,
在这里插入图片描述
作者训练两个共享参数模型:视频模型以及图像模型,利用式8控制视频帧时间一致性,效果如图4所示。
在这里插入图片描述

3.4优化过程

1、使用预训练LDM初始化模型;
2、基于CLIP image embeddings finetune模型;
3、引入时间联系,联合训练图像及视频;
4、引入结构信息 s s s t s t_s ts设置为0,训练模型;
5、 t s t_s ts随机采样0-7,训练模型

实验结果

为自动生成prompt,作者使用blip获取视频description,使用GPT-3生成prompt
对于各种输入结果如图5所示,拥有多种可编辑能力,比如风格变化、环境变化、场景特性。
在这里插入图片描述
图8证明mask视频编辑任务;
在这里插入图片描述
用户评判结果如图7,
在这里插入图片描述
帧一致性评估:计算输出视频各帧CLIP image embeddings,计算连续帧之间平均余弦相似度;
Prompt一致性评估:计算输出视频各帧CLIP image embeddings与text embeddings之间平均余弦相似度。

图6展示实验结果,日益增加的时间尺度 w s w_s ws,导致更高帧一致性但是第prompt一致性,结构尺度 t s t_s ts越大,导致更高prompt一致性,内容与输入结构一致性越低。
在这里插入图片描述
基于小数据集finetune方法DreamBooth,作者在15-30张图片上finetune模型,图10展示可视化结果。

结论

作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性,同时利用文本或图片进行内容控制;通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性,通过控制轮次 t s t_s ts控制结构保留度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/16003.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大象机器人myCobot 280 2023版全新功能展示

引言 机械臂是一种可编程的、自动化的机械系统,它可以模拟人类的动作,完成各种任务,例如装配、喷涂、包装、搬运、焊接、研磨等。由于其高度灵活性和多功能性,机械臂在现代社会中已经得到了广泛的应用。 myCobot 280 M5Stack 202…

Spring Boot 中的 SockJS

Spring Boot 中的 SockJS 在 Spring Boot 中,SockJS 是一个用于实现 WebSocket 的兼容性解决方案。本文将介绍 SockJS 的原理、使用方法和示例代码。 什么是 SockJS SockJS 是一种浏览器与服务器之间的通信协议,它可以在浏览器和服务器之间建立一个基于…

论文阅读:Segment Anything之阅读笔记

目录 引言整体结构介绍论文问答代码仓库中,模型哪部分转换为了ONNX格式?以及如何转的?Mask decoder部分 Transformer decoder block?如何整合image_embedding,image_pe, sparse_prompt_embedding和dense_prompt_embedding的&…

将OxyPlot封装成用户控件后在WPF中的应用

1、文件架构 2、加载依赖项 Newtonsoft.Json OxyPlot.Wpf 3、NotifyBase.cs namespace Accurate.Common {public class NotifyBase : INotifyPropertyChanged{public event PropertyChangedEventHandler? PropertyChanged;public void DoNotify([CallerMemberName] string p…

XR-FRAME 开始

目录 新建一个XR组件在页面中使用这个组件添加一个物体来点颜色和灯光有点寡淡,加上图像让场景更丰富,环境数据动起来,加入动画还是不够,放个模型再来点交互组件通信,加上HUD虚拟 x 现实,追加AR能力识别人脸…

抖音seo矩阵系统源码开发部署-开源分享(二)

目录 市场背景分析 一、 抖音seo矩阵系统开发部署流程 二、 源码开发功能构思 三、 抖音seo源码开发部署注意事项 四、 部分开发代码展示 市场背景分析 账号矩阵是通过不同平台不同账号之间建立联系,通过将同一品牌下不同平台不同账号的粉丝流量进行账号互通&a…

网络安全 log4j漏洞复现

前言: log4j被爆出“史诗级”漏洞。其危害非常大,影响非常广。该漏洞非常容易利用,可以执行任意代码。这个漏洞的影响可谓是重量级的。 漏洞描述: 由于Apache Log4j存在递归解析功能,未取得身份认证的用户&#xff…

每次装完 homebrew,ohmyzsh 就会报错:Insecure completion-dependent directories detected:

参考:https://zhuanlan.zhihu.com/p/313037188 这是因为在big sur安装homebrew后,会在/usr/local/share/生成一个zsh文件夹,里面包含了 因此,zsh文件默认设置的权限是775,也就是group user有writer的权利,zsh认为这是…

【笔记】数字电路基础1 - 门电路

目录 数字电路基础与门电路数电基础基本门电路复合门电路TTL 门电路CMOS 门电路 数字电路基础与门电路 数电基础 数字电路中常将 0 ~ 1V 范围的电压称为低电平,用“0”表示;而将 3 ~ 5V 范围的电压称为高电平,用“1”…

【深入浅出 Spring Security(十二)】使用第三方(Github)授权登录

使用第三方(Github)授权登录 一、OAuth2 简单概述二、OAuth2 四种授权模式之授权码模式三、Github 授权登录准备工作创建 Spring Boot 项目Vue 测试代码测试效果 (Github授权登录的具体操作在目录第三“章”) 一、OAuth2 简单概述…

【实战】 四、JWT、用户认证与异步请求(上) —— React17+React Hook+TS4 最佳实践,仿 Jira 企业级项目(四)

文章目录 一、项目起航:项目初始化与配置二、React 与 Hook 应用:实现项目列表三、TS 应用:JS神助攻 - 强类型四、JWT、用户认证与异步请求1.login2.middleware of json-server3.jira-dev-tool(imooc-jira-tool)安装问…

排序之玩转qsort函数——【C语言】

说起排序,我们会想起许多算法,在之前的博客中我也写到过,比如:冒泡排序法、快速排序法、选择排序法等等。其实在C语言中一直有一个可以将数组中的内容进行排序的函数且功能完善内容齐全的库函数——qsort函数。今天就让我们来探索…