Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets

近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。

Stable Video Diffusion模型是一种先进的文本到视频和图像到视频生成模型,专为高分辨率视频设计。研究者通过三个阶段的训练过程,强调了预训练数据集的重要性,并提出了一种系统化的数据策划方法来培养一个强大的基础模型。该模型不仅为多视图合成提供了强有力的运动和多视角先验,还能够微调成多视图扩散模型,以高效的方式生成对象的多个视角。

此外,通过特定的运动提示和LoRA模块的训练,模型能够实现显式运动控制。研究者们通过策划工作流程,将大型视频集合转化为高质量的数据集,并训练出了超越先前所有模型的尖端文生视频和图生视频模型。他们的方法在减少数据集大小、提高分辨率和视频帧数方面表现出色,并在与其他顶尖模型的比较中证明了其有效性。总而言之,这一方法有效地分离了运动和内容,在多视图合成方面取得了显著成果。其主要步骤如下:

  1. 数据处理与标注:首先提出了一个大型视频数据集(LVD),包含580M个标注过的视频剪辑对,使用三种不同的合成字幕方法对每个片段进行注释,而通过进一步研究发现,现有数据集中含有可能降低最终视频模型性能的样本,如运动量少、文本过多或审美价值低的视频。因此,作者以2FPS进行计算,并通过删除任何平均光流幅度低于某一阈值的视频来过滤掉静态场景。

  2. 图像预训练:讨论了图像预训练作为视频模型训练流程中的第一个阶段。作者将图像预训练(image pretraining)作为视频模型训练流程的第一个阶段。他们在初始模型上使用了一个预训练的图像扩散模型——即Stable Diffusion 2.1——以为模型提供强大的视觉表现力

  3. 策划视频预训练数据集:作者提出了一个两阶段的视频预训练数据集策划流程。第一阶段涉及图像预训练,其中利用了空间布局初始化自预训练图像模型的视频模型,并展示了在预训练大型且多样化的数据集,然后在较小但质量更高的数据集上进行微调的效果提升。第二阶段关注于策划适合预训练的视频数据集。作者通过计算光流(optical flow)来过滤掉不需要的样本以创建一个更适宜的预训练数据集

  4. 高质量视频微调:这一阶段的目的是在一个高质量、高分辨率的视频子集上对模型进行精细化调整。在前两个阶段(图像预训练和视频预训练)的基础上,通过进一步的高质量微调来提升最终模型的性能。在第三阶段期间,插入时间卷积和注意力层,这些是在每个空间卷积和注意力层之后添加的,与仅训练时间层的工作或完全基于LLM(大型语言模型)的方法形成对比。

Stability AI还发布了"Stable Video Diffusion"的代码,其github仓库地址为:https://github.com/nateraw/stable-diffusion-videos,可以进入仓库使用colab一键体验。另外Stable Video Diffusion官网已经全面开放使用,可以直接进入官网https://www.stablevideo.com/,点击start with text。

输入对应的prompt如:A tranquil, realistic depiction of a sunset over calm ocean waters, with the sky ablaze in vibrant oranges and reds, reflecting softly on the water's surface,然后选择比例和风格,点击Generate即可开始生成视频。

图像和视频的生成已成为目前人工智能最火热的应用,而掌握良好的提示工程基础已经成为提高工作效率、优化系统设计和提供良好用户体验的重要前提之一。无论是对于从事信息技术相关工作的专业人士,还是对于对提示技术感兴趣的初学者,我推荐学习一下《提示工程基础》这门课程、课程将介绍提示工程的基本知识,然后逐步过渡到高级提示技术。您还将学习如何防止提示误用,以及如何在与基础模型 (FM, Foundation Model) 互动时减少偏差。

课程链接:https://study.163.com/course/introduction.htm?from=AWS-social-FY24-KOC-HJS

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/506473.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云原生之容器编排实践-ruoyi-cloud项目部署到K8S:Nacosv2.2.3

背景 前面搭建好了 Kubernetes 集群与私有镜像仓库,终于要进入服务编排的实践环节了。本系列拿 ruoyi-cloud 项目进行练手,按照 MySQL , Nacos , Redis , Nginx , Gateway , Auth ,…

项目实战 MySQL读写分离【构建主从结构数据库(查从库)(增删改主库)】【ShardingJDBC实现读写分离】

项目实战 MySQL读写分离 1. MySQL主从复制1.1 介绍1.2 搭建1.2.1 准备工作1.2.3 从库配置 2. 读写分离案例2.2 ShardingJDBC介绍 转自-黑马 在前面基础功能实现的过程中,我们后台管理系统及移动端的用户,在进行数据访问时,都是直接操作数据库…

开源模型Mistral 7B+Amazon SageMaker部署指南

一、Mistral 7B简述 Mistral AI 是一家总部位于法国的 AI 公司,其使命是将公开可用的模型提升至最先进的性能水平。他们专注于构建快速而安全的大型语言模型(LLM),此类模型可用于从聊天机器人到代码生成等各种任务。不久前其发布…

Java进阶-IO(4)

前面几篇介绍了java IO的基础部分,现在进入核心内容的学习,如File类、动态读取和序列化等,如下。 一、File类 1、概述 是 java.io 包中唯一代表磁盘文件本身的对象(可以通过 File 类操作文件和目录),定义…

力扣hot100题解(python版48-50题)

48、路径总和III 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从…

图论 - 最小生成树(Prime、Kruskal)

文章目录 前言Part 1:Prim算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 Part 2:Kruskal算法求最小生成树1.题目描述输入格式输出格式数据范围输入样例输出样例 2.算法 前言 本篇博客介绍两种求最小生成树的方法&#xff…

寻址错题本

指令寻址 顺序寻址 通过程序计数器PC自动加1,形成下一条指令的指令地址。 跳跃寻址 通过转移类指令实现跳转到指定的代码段或者子程序。 数据寻址 直接寻址 形式地址A就是操作数的地址EA,执行阶段访问一次存储器。 所以当我们需要取得实际的值(操作数)的时候: 第一步:…

Canvas笔记03:Canvas元素功能、属性、获取、原理等一文讲透

hello,我是贝格前端工场,最近在学习canvas,分享一些canvas的一些知识点笔记,本期分享canvas元素的知识,欢迎老铁们一同学习,欢迎关注,如有前端项目可以私信贝格。 Canvas元素是HTML5中的一个重…

【LeetCode:225. 用队列实现栈 + 栈 | 队列】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

Day23-磁盘管理与软件包管理

Day23-磁盘管理与软件包管理 1. 什么是文件系统?2. 为什么磁盘分区后需要格式化?3. 常见文件系统类型4. 文件系统体系结构(图)5. 生产文件系统选型5.1 SAS/SATA磁盘对应文件系统的选择:5.2 常规的服务应用建议&#xf…

TensorFlow 使用 Rust 指南

一、概述 TensorFlow是由 Google Brain 团队开发的强大的开源机器学习框架,已成为人工智能的基石。虽然传统上与 Python 等语言相关,但 Rust(一种因其性能和安全性而受到重视的系统编程语言)的出现为 TensorFlow 爱好者开辟了新的…

YOLOv9改进|使用CARAFE轻量级通用上采样算子

专栏介绍:YOLOv9改进系列 | 包含深度学习最新创新,主力高效涨点!!! 一、改进点介绍 CARAFE 发表于ICCV2019。上采样操作可以表示为每个位置的上采样核和输入特征图中对应邻域的像素做点积,我们称之为特征重…