视频扩散模型介绍 Video Diffusion Models Introduction

视频扩散模型介绍 Video Diffusion Models Introduction

  • Diffusion 扩散模型中的一些概念
    • DDPM
    • DDIM
    • CLIP
    • Latent Diffusion
    • Stable Diifusion
    • LoRA
    • DreamBooth
    • ControlNet
  • 视频生成
    • 评估标准
      • 图片层面
      • 视频层面
    • 前人的工作
      • Make-A-Video
      • Align your Latents
    • 开源视频生成模型
      • ModelScopeT2V(阿里)
      • Show-1
      • VideoCrafter(tx)
      • LaVie
      • Stable Video Diffusion
    • 高效的生成方法
      • AnimateDiff
      • Text2Video-Zero 无需训练
      • 其他
    • Storyboard
      • VisorGPT
      • VideoDirectorGPT
      • Long-form Video Prior
      • 其他工作
    • 长视频生成
      • NUWA-XL
  • Video Editing
    • Tuning-based
      • Tune-A-Video
      • Dreamix
    • Training-Free
      • TokenFlow
      • FateZero
      • 其他工作
    • Controlled Editing
      • Gen-1
      • Pix2Video
      • ControlVideo
      • VideoControlNet
      • CCEdit
      • VideoComposer
      • 其他工作
      • Pose Control姿态控制
        • MagicAnimate
      • PointControl
    • 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器,预测出来噪声然后与原始图片相减,得到干净的图片

在这里插入图片描述
当然,去噪过程是逐步的,所以减去之后会重新加上“平均噪声”
在这里插入图片描述

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比:
在这里插入图片描述

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作,多了编码解码,在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成(2+1),就是从图片生成到视频生成的一种思路
在这里插入图片描述

早期工作:
在这里插入图片描述
解码器+插帧+超分辨率模块
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述
在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V(阿里)

在这里插入图片描述
在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果,ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter(tx)

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述
在这里插入图片描述
训练过程:
先初始化参数
在这里插入图片描述
训练过程
在这里插入图片描述

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机:如何在不用fine-tune的情况下使用Stable Diffusion

做法:给定第一帧noise后,人为定义全局scene motion

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频,如果时间要增长,有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述
在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述
在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述
在这里插入图片描述

Sparse-Casual的attention方式节约内存空间,只跟第一帧和前一帧做attention
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

只在关键帧标注
在这里插入图片描述
在这里插入图片描述

3D-Aware

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/527015.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java中常用的集合及方法(3)

1、List(接上级--常用方法示例补充) 1.4 常用的方法 1.4.2 LinkedList(JDK8) LinkedList是Java中一个实现了List接口和Deque接口的类,它采用链表结构存储数据,支持高效的插入和删除操作。 LinkedList中…

阿里云服务器一个月多少钱?最便宜的5元1个月

阿里云服务器一个月多少钱?最便宜5元1个月。阿里云轻量应用服务器2核2G3M配置61元一年,折合5元一个月,2核4G服务器30元3个月,2核2G3M带宽服务器99元12个月,轻量应用服务器2核4G4M带宽165元12个月,4核16G服务…

Gitlab修改仓库权限为public、Internal、Private

Public(公开):所有人都可以访问该仓库; Internal(内部):同一个GitLab群组或实例内的所有用户都可以访问该仓库; Private(私人):仅包括指定成员的用…

【动态规划】【前缀和】【和式变换】100216. K 个不相交子数组的最大能量值

本文涉及知识点 动态规划汇总 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode 100216. K 个不相交子数组的最大能量值 给你一个长度为 n 下标从 0 开始的整数数组 nums 和一个 正奇数 整数 k 。 x 个子数组的能量值定义为 stren…

STM32FreeRTOS信号量(STM32cube高效开发)

一、信号量 (一)信号量概括 信号量是操作系统中重要的一部分,信号量是一种解决同步问题的机制,可以实现对共享资源的有序访问。 FreeRTOS 提供了多种信号量,按信号量的功能可分为二值信号量、计数型信号量、互斥信…

python版本原因导致的grpcio-tools-1.48.2安装失败

因为工作需要使用python开发grpc客户端,在mac电脑上通以下命令安装python的grpc依赖库总是不成功 pip3 install --no-cache-dir --force-reinstall -Iv grpcio1.48.2 grpcio-tools1.48.2 clang -Wsign-compare -Wunreachable-code -fno-common -dynamic -DNDEBUG …

图片在div完全显示

效果图&#xff1a; html代码&#xff1a; <div class"container" style" display: flex;width: 550px;height: 180px;"><div class"box" style" color: red; background-color:blue; width: 50%;"></div><div …

蓝桥杯嵌入式省赛模板构建——串口发送

介绍 串口发送&#xff1a;单片机发送数据给电脑 只需要掌握异步收发 PA9单片机发送数据&#xff0c;PA10单片机接收数据 波特率&#xff1a;每秒传输的二进制位数&#xff0c; 例&#xff1a;4800bps:每秒能传输4800个bit 由下图可知一帧 10个bit(加上启动位和停…

input中文输入法导致的高频事件

这是基本结构 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>中文输入法的高频事件</title&…

排查线上JVM CPU飙升使用率高和线程死锁问题

一、排查CPU飙升使用率高问题 在开始前新建一个 SpringBoot 项目构建CPU使用率高的场景&#xff1a; RestController public class JvmThread1Controller {ThreadPoolExecutor executor new ThreadPoolExecutor(10,15,2,TimeUnit.SECONDS,new LinkedBlockingDeque<>(5…

智慧城市的未来:利用数字孪生技术推动智慧城市的智能化升级

目录 一、引言 二、数字孪生技术概述 三、数字孪生技术在智慧城市中的应用 1、城市规划与建设 2、城市管理与运营 3、公共服务与民生改善 4、应急管理与灾害防控 四、数字孪生技术推动智慧城市的智能化升级的价值 1、提高城市管理的智能化水平 2、优化城市资源配置 …

2024年阿里云服务器个人一个月多少价格?5元/月

阿里云服务器一个月多少钱&#xff1f;最便宜5元1个月。阿里云轻量应用服务器2核2G3M配置61元一年&#xff0c;折合5元一个月&#xff0c;2核4G服务器30元3个月&#xff0c;2核2G3M带宽服务器99元12个月&#xff0c;轻量应用服务器2核4G4M带宽165元12个月&#xff0c;4核16G服务…