视频扩散模型介绍 Video Diffusion Models Introduction-编程知识

视频扩散模型介绍 Video Diffusion Models Introduction

news/2024/9/25 4:35:38/文章来源:https://blog.csdn.net/m0_51371693/article/details/136478507

视频扩散模型介绍 Video Diffusion Models Introduction

Diffusion 扩散模型中的一些概念
- DDPM
- DDIM
- CLIP
- Latent Diffusion
- Stable Diifusion
- LoRA
- DreamBooth
- ControlNet
视频生成
- 评估标准
- - 图片层面
  - 视频层面
- 前人的工作
- - Make-A-Video
  - Align your Latents
- 开源视频生成模型
- - ModelScopeT2V（阿里）
  - Show-1
  - VideoCrafter（tx）
  - LaVie
  - Stable Video Diffusion
- 高效的生成方法
- - AnimateDiff
  - Text2Video-Zero 无需训练
  - 其他
- Storyboard
- - VisorGPT
  - VideoDirectorGPT
  - Long-form Video Prior
  - 其他工作
- 长视频生成
- - NUWA-XL
Video Editing
- Tuning-based
- - Tune-A-Video
  - Dreamix
- Training-Free
- - TokenFlow
  - FateZero
  - 其他工作
- Controlled Editing
- - Gen-1
  - Pix2Video
  - ControlVideo
  - VideoControlNet
  - CCEdit
  - VideoComposer
  - 其他工作
  - Pose Control姿态控制
  - - MagicAnimate
  - PointControl
- 3D-Aware

Diffusion 扩散模型中的一些概念

DDPM

扩散过程和去噪过程
在这里插入图片描述

在这里插入图片描述

去噪器，预测出来噪声然后与原始图片相减，得到干净的图片

在这里插入图片描述
当然，去噪过程是逐步的，所以减去之后会重新加上“平均噪声”

DDIM

跳步
在这里插入图片描述
DDIM和DDPM作对比：

在这里插入图片描述

CLIP

在这里插入图片描述

Latent Diffusion

不是直接在像素空间进行操作，多了编码解码，在latent空间操作加噪和去噪过程
在这里插入图片描述

Stable Diifusion

在这里插入图片描述

LoRA

微调
在这里插入图片描述

DreamBooth

在这里插入图片描述

ControlNet

在这里插入图片描述

在这里插入图片描述

视频生成

一些已有的工作分类
在这里插入图片描述
3D可以分成（2+1），就是从图片生成到视频生成的一种思路

早期工作：
在这里插入图片描述
解码器+插帧+超分辨率模块

评估标准

在这里插入图片描述

图片层面

语义相似度
在这里插入图片描述

像素相似度
在这里插入图片描述

视频层面

视频生成的质量和多样性
在这里插入图片描述

一致性
在这里插入图片描述

组合评估
在这里插入图片描述

前人的工作

Make-A-Video

在这里插入图片描述

Align your Latents

在这里插入图片描述

开源视频生成模型

ModelScopeT2V（阿里）

在这里插入图片描述

可变temporal attention
在这里插入图片描述

下面是模型效果，ZeroScope是从ModelScope 用10K的小数据集fine-tune出来的
在这里插入图片描述

Show-1

在这里插入图片描述

VideoCrafter（tx）

在这里插入图片描述

LaVie

在这里插入图片描述

Stable Video Diffusion

数据处理
在这里插入图片描述

训练过程：
先初始化参数

训练过程

fine-tune阶段
在这里插入图片描述

高效的生成方法

AnimateDiff

把文生图片模型转化为文生视频模型而不需要单独train

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Text2Video-Zero 无需训练

动机：如何在不用fine-tune的情况下使用Stable Diffusion

做法：给定第一帧noise后，人为定义全局scene motion

在这里插入图片描述

其他

在这里插入图片描述

Storyboard

前面生成的视频都是几秒钟长度的视频，如果时间要增长，有哪些工作做了

文本->电影脚本->视频

VisorGPT

在这里插入图片描述

VideoDirectorGPT

在这里插入图片描述

Long-form Video Prior

在这里插入图片描述

其他工作

在这里插入图片描述

长视频生成

NUWA-XL

在这里插入图片描述

Video Editing

在这里插入图片描述

Tuning-based

Tune-A-Video

在这里插入图片描述

Sparse-Casual的attention方式节约内存空间，只跟第一帧和前一帧做attention
在这里插入图片描述

Dreamix

在这里插入图片描述

在这里插入图片描述

Training-Free

TokenFlow

在这里插入图片描述

FateZero

在这里插入图片描述

其他工作

在这里插入图片描述

Controlled Editing

Gen-1

在这里插入图片描述

Pix2Video

Control场景里也有不需要训练的方法
在这里插入图片描述

ControlVideo

另外一种不需要训练的方法
在这里插入图片描述

VideoControlNet

CCEdit

在这里插入图片描述

VideoComposer

在这里插入图片描述

其他工作

在这里插入图片描述

Pose Control姿态控制

MagicAnimate

在这里插入图片描述

PointControl

比如图中想把猫换成狗但是背景保留

在这里插入图片描述

只在关键帧标注
在这里插入图片描述

3D-Aware

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/527015.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Java中常用的集合及方法（3）

Java中常用的集合及方法（3）

1、List（接上级--常用方法示例补充） 1.4 常用的方法 1.4.2 LinkedList（JDK8） LinkedList是Java中一个实现了List接口和Deque接口的类，它采用链表结构存储数据，支持高效的插入和删除操作。 LinkedList中…

阅读更多...

阿里云服务器一个月多少钱？最便宜的5元1个月

阿里云服务器一个月多少钱？最便宜的5元1个月

阿里云服务器一个月多少钱？最便宜5元1个月。阿里云轻量应用服务器2核2G3M配置61元一年，折合5元一个月，2核4G服务器30元3个月，2核2G3M带宽服务器99元12个月，轻量应用服务器2核4G4M带宽165元12个月，4核16G服务…

阅读更多...

Gitlab修改仓库权限为public、Internal、Private

Gitlab修改仓库权限为public、Internal、Private

Public（公开）：所有人都可以访问该仓库； Internal（内部）：同一个GitLab群组或实例内的所有用户都可以访问该仓库； Private（私人）：仅包括指定成员的用…

阅读更多...

【动态规划】【前缀和】【和式变换】100216. K 个不相交子数组的最大能量值

【动态规划】【前缀和】【和式变换】100216. K 个不相交子数组的最大能量值

本文涉及知识点动态规划汇总 C算法：前缀和、前缀乘积、前缀异或的原理、源码及测试用例包括课程视频 LeetCode 100216. K 个不相交子数组的最大能量值给你一个长度为 n 下标从 0 开始的整数数组 nums 和一个正奇数整数 k 。 x 个子数组的能量值定义为 stren…

阅读更多...

STM32FreeRTOS信号量（STM32cube高效开发）

STM32FreeRTOS信号量（STM32cube高效开发）

一、信号量 （一）信号量概括信号量是操作系统中重要的一部分，信号量是一种解决同步问题的机制，可以实现对共享资源的有序访问。 FreeRTOS 提供了多种信号量，按信号量的功能可分为二值信号量、计数型信号量、互斥信…

阅读更多...

python版本原因导致的grpcio-tools-1.48.2安装失败

python版本原因导致的grpcio-tools-1.48.2安装失败

因为工作需要使用python开发grpc客户端，在mac电脑上通以下命令安装python的grpc依赖库总是不成功 pip3 install --no-cache-dir --force-reinstall -Iv grpcio1.48.2 grpcio-tools1.48.2 clang -Wsign-compare -Wunreachable-code -fno-common -dynamic -DNDEBUG …

阅读更多...

图片在div完全显示

图片在div完全显示

效果图： html代码： <div class"container" style" display: flex;width: 550px;height: 180px;"><div class"box" style" color: red; background-color:blue; width: 50%;"></div><div …

阅读更多...

蓝桥杯嵌入式省赛模板构建——串口发送

蓝桥杯嵌入式省赛模板构建——串口发送

介绍串口发送：单片机发送数据给电脑只需要掌握异步收发 PA9单片机发送数据，PA10单片机接收数据波特率：每秒传输的二进制位数， 例：4800bps:每秒能传输4800个bit 由下图可知一帧 10个bit(加上启动位和停…

阅读更多...

input中文输入法导致的高频事件

input中文输入法导致的高频事件

这是基本结构 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>中文输入法的高频事件</title&…

阅读更多...

排查线上JVM CPU飙升使用率高和线程死锁问题

排查线上JVM CPU飙升使用率高和线程死锁问题

一、排查CPU飙升使用率高问题在开始前新建一个 SpringBoot 项目构建CPU使用率高的场景： RestController public class JvmThread1Controller {ThreadPoolExecutor executor new ThreadPoolExecutor(10,15,2,TimeUnit.SECONDS,new LinkedBlockingDeque<>(5…

阅读更多...

智慧城市的未来：利用数字孪生技术推动智慧城市的智能化升级

智慧城市的未来：利用数字孪生技术推动智慧城市的智能化升级

目录一、引言二、数字孪生技术概述三、数字孪生技术在智慧城市中的应用 1、城市规划与建设 2、城市管理与运营 3、公共服务与民生改善 4、应急管理与灾害防控四、数字孪生技术推动智慧城市的智能化升级的价值 1、提高城市管理的智能化水平 2、优化城市资源配置 …

阅读更多...

2024年阿里云服务器个人一个月多少价格？5元/月

2024年阿里云服务器个人一个月多少价格？5元/月

阿里云服务器一个月多少钱？最便宜5元1个月。阿里云轻量应用服务器2核2G3M配置61元一年，折合5元一个月，2核4G服务器30元3个月，2核2G3M带宽服务器99元12个月，轻量应用服务器2核4G4M带宽165元12个月，4核16G服务…

阅读更多...

推荐文章

最新文章