AIGC - 视频生成模型的相关算法进展

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/135688206

视频生成技术确实是一个很有潜力的颠覆性技术领域,可以作为企业创新梯队的重点关注方向,最近发展很快,一直也有跟进这个方向的发展。

当前视频生成技术在哪些方面已突破,哪些方面还有卡点?,例如内容质量、一致性、视频长 度、清晰度、稳定性、复杂动作生成等。

视频生成技术,根据给定的文本、图像、视频等输入,自动生成符合描述的视频内容。视频生成技术在近年来取得了显著的进展,但也面临着一些挑战和限制。以下是一些视频生成技术的突破和卡点:

  • 内容质量:视频生成技术的一个重要目标是提高生成视频的内容质量,使其更逼真、清晰和细致。目前,Phenaki,MagicVideo等。这些技术主要利用了扩散模型(Diffusion model)的优势,通过逆向降噪推断来生成图像,同时利用Transformer模型来捕捉视频的时空动态。然而,内容质量的提高也需要更大的计算资源和数据量,这可能限制了视频生成技术的普及和应用。
  • 一致性:视频生成技术的另一个重要目标是保证生成视频的一致性,使其与输入的描述、风格和语义相匹配,同时在时间上保持流畅和连贯。目前,CogVideo能够根据中文文本描述生成视频,利用多帧率分层训练策略来对齐文本和视频剪辑。然而,一致性的保证也需要更复杂的模型设计和训练策略,例如如何处理输入的多样性、不确定性和歧义性,如何平衡生成视频的多样性和准确性,如何避免生成视频的模式崩溃(mode collapse)等。
  • 视频长度:视频生成技术的一个挑战是如何生成可变长度的视频,以满足不同的应用需求。目前,Phenaki能够根据一长串的文本描述生成长达2分钟的视频,利用C-ViViT模型来压缩视频的表示,同时在时间上保持自回归。然而,视频长度的增加也会带来更多的难度,例如如何保持视频的完整性和连贯性,如何避免视频的重复和冗余,如何处理视频的转场和剪辑等。
  • 清晰度:视频生成技术的一个挑战是如何提高生成视频的清晰度,使其更锐利和细腻。目前,MagicVideo能够生成1080p的视频,利用潜在扩散模型来提高视频的分辨率和细节。然而,清晰度的提高也会带来更多的问题,例如如何处理视频的噪声、模糊和失真,如何平衡视频的清晰度和自然度,如何适应不同的视频场景和风格等。
  • 稳定性:视频生成技术的一个挑战是如何提高生成视频的稳定性,使其更平滑和稳定。目前,Phenaki能够生成流畅的视频,利用时间上的因果注意力来捕捉视频的时空动态。然而,稳定性的提高也会带来更多的困难,例如如何处理视频的抖动、闪烁和断层,如何适应视频的快速和复杂的运动,如何避免视频的失真和失真等。
  • 复杂动作生成:视频生成技术的一个挑战是如何生成复杂的动作,使其更逼真和自然。目前,Phenaki能够根据文本描述生成人物的表情和姿态,利用预训练的文本生成图像模型来生成第一帧,然后利用C-ViViT模型来生成后续帧。然而,复杂动作的生成也需要更高的技术水平,例如如何处理视频的遮挡、遮挡和遮挡,如何生成视频的深度和透视,如何生成视频的光照和阴影等。

综上所述,视频生成技术在内容质量、一致性、视频长度、清晰度、稳定性和复杂动作生成等方面都取得了一些突破,但也还有一些卡点和难点。视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

比较前沿的一些Paper:

  • Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions

Phenaki

  • ViViT: A Video Vision Transformer

ViViT

  • MagicVideo: Efficient Video Generation With Latent Diffusion

MagicVideo

  • MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

MagicVideo-V2

  • Text2Performer: Text-Driven Human Video Generation

Text2Performer

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

CogVideo

如果从自动化程度、效果等维度来划分视频生成的级别 (L1 到 L4,L1 就是从创意产生到 视频生成都是人工完成,效果真实,L2 是 ai 辅助素材匹配和抓取,叠加运镜效果,有 ppt 感,L3 是 ai 生成素材和视频,开始有比较逼真的效果,但仍有大动作等卡点,L4 是各环节 都是 ai 产生,效果极致),当前处于哪个阶段? L3 到 L4 需要多久,以及突破哪些技术卡点?

根据给出的视频生成的级别划分,我认为当前的视频生成技术大致处于L2到L3之间的阶段,即AI可以辅助视频制作的部分环节,例如素材匹配、抓取、剪辑、特效等,但还不能完全替代人工的创意和控制,也还不能生成高质量、高逼真、高连贯的视频内容。

要达到L4的级别,即AI可以完全自主地从创意到视频生成的各个环节,我认为还需要一定的时间和技术突破。具体来说,我觉得有以下几个方面的技术卡点:

  • 视频生成的可控性:目前的视频生成技术还不能很好地满足用户的个性化需求,例如生成任意长度、任意风格、任意场景的视频,或者对视频中的元素进行编辑和修改。要提高视频生成的可控性,需要提升模型对长文本的理解能力,以及对视频的分解和重组能力。
  • 视频生成的逼真度:目前的视频生成技术还不能很好地保证生成视频的质量和内容,例如生成的视频可能存在画面模糊、噪声、失真、跳帧等问题,或者视频中的物体、人物、动作、情节等不符合逻辑或常识。要提高视频生成的逼真度,需要提升模型对视频的细节和语义的捕捉能力,以及对视频的一致性和连贯性的保证能力。
  • 视频生成的效率:目前的视频生成技术还需要消耗大量的计算资源和数据,以及较长的训练和生成时间,这可能限制了视频生成的普及和应用。要提高视频生成的效率,需要提升模型的压缩和优化能力,以及对视频的编码和解码能力。

视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/418503.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SaaS多租户篇

文章目录 1. 多租户是什么2. 技术组件2.1 如何实现多租户的DB封装2.2 如何实现多租户的redis封装2.3 如何实现多租户的Web和Security封装 1. 多租户是什么 2. 技术组件 2.1 如何实现多租户的DB封装 2.2 如何实现多租户的redis封装 2.3 如何实现多租户的Web和Security封装

DBA技术栈MongoDB: 索引和查询优化

2.1 批量插入数据 单条数据插入db.collection.insertOne()多条数据插入db.collection.insertMany() db.inventory.insertMany( [{ item: "journal", qty: 25, size: { h: 14, w: 21, uom: "cm" }, status: "A" },{ item: "notebook"…

Mac book air 重新安装系统验证显示 untrusted_cert_title

环境: Mac Book Air macOS Sierra 问题描述: Mac book air 重新安装系统验证显示 untrusted_cert_title 解决方案: 1.终端输入命令行输入 date 会看到一个非常旧的日期 2.更改日期为当前时间 使用以下命令来设置日期和时间&#xff1a…

第7章面向对象设计常用的设计模式

7.1 设计模式概述 7.2 单例模式 (1)模式名称 单例模式。 (2)问题与分析 问: 对于调用者,如何才能做到确保代码中的某个类只存在一个实例,而且实例一旦创建,就可以向整个运行程序提供…

std::atomic

一、概述 std::atomic 是C11引入的一个模板类,用于提供原子操作的类型。在多线程编程中,当多个线程同时访问同一块数据时,可能会导致数据竞争和不确定的行为。std::atomic 可以用来创建原子类型的变量,保证对该变量的操作是原子的…

蓝桥杯练习题-穷举模拟

📑前言 本文主要是【穷举模拟】——蓝桥杯练习题-穷举模拟的文章,如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介:大家好,我是听风与他🥇 ☁️博客首页:CSDN主页听风与他 🌄…

Spring DI

目录 什么是依赖注入 属性注入 构造函数注入 Setter 注入 依赖注入的优势 什么是依赖注入 依赖注入是一种设计模式,它通过外部实体(通常是容器)来注入一个对象的依赖关系,而不是在对象内部创建这些依赖关系。这种方式使得对象…

基于C++11的数据库连接池【C++/数据库/多线程/MySQL】

一、概述 概述:数据库连接池可提前把多个数据库连接建立起来,然后把它放到一个池子里边,就是放到一个容器里边进行维护。这样的话就能够避免数据库连接的频繁的创建和销毁,从而提高程序的效率。线程池其实也是同样的思路&#xf…

OCR识别网络CRNN理解与Pytorch实现

CRNN是2015年的论文“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”提出的图像字符识别网络,也是目前工业界使用较为广泛的一个OCR网络。论文地址:https://arxiv.org/…

OpenHarmony AI框架开发指导

一、概述 1、 功能简介 AI业务子系统是OpenHarmony提供原生的分布式AI能力的子系统。AI业务子系统提供了统一的AI引擎框架,实现算法能力快速插件化集成。 AI引擎框架主要包含插件管理、模块管理和通信管理模块,完成对AI算法能力的生命周期管理和按需部…

检索增强(RAG)的方式---重排序re-ranking

提升RAG:选择最佳嵌入Embedding&重排序Reranker模型 检索增强生成(RAG)技术创新进展:自我检索、重排序、前瞻检索、系统2注意力、多模态RAG RAG的re-ranking指的是对初步检索出来的候选段落或者文章,通过重新排序的方式来提升检索质量。…

红包封面免费送1000个,你设计,我出额度

相信最近大家或多或少都知道了吧,腾讯又又又给大家,准确的说是给一年勤奋的公众号/视频号博主一个福利 根据不同博主的粉丝、更新频度以及作品质量,给力博主们免费制作红包封面的福利 比如我这个号,有6000额度 那这6000个&#…