视觉叙事的艺术:StoryDiffusion打造一致性图像/视频故事创作

论文:https://arxiv.org/pdf/2405.01434

主页:StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

一、摘要总结

        本文提出了一种名为StoryDiffusion的新方法,用于生成一系列内容一致的图像和视频,特别是那些包含主体和复杂细节的图像。StoryDiffusion通过两种新颖的组件来实现这一目标:Consistent Self-Attention(一致性自注意力)和Semantic Motion Predictor(语义运动预测器)。

  • Consistent Self-Attention:这是一种新的自注意力计算方式,能够在不需要训练的情况下,通过零样本(zero-shot)的方式显著提升生成图像间的一致性。它通过在自注意力的计算过程中引入参考图像的采样token,增强了图像间的身份和服饰一致性,这对于讲述故事/故事绘本至关重要
  • Semantic Motion Predictor:这是一个新颖的语义空间时间运动预测模块,它被训练用来估计两张给定图像在语义空间中的运动条件。该模块能够将生成的图像序列转换为具有平滑过渡和一致主体的视频,特别是在长视频生成的背景下,相比于仅基于浅特征空间的模块,它提供了更稳定的结果。

二、算法框架

本文提出的StoryDiffusion框架主要分为两个阶段来生成一致性图像和视频:

a.)第一阶段:生成一致性图像

  1. 文本分割:将一个故事文本分割成多个提示(prompts),每个提示对应一个单独的图像。
  2. 批量生成:使用分割出的提示批量生成图像。
  3. Consistent Self-Attention (CAB):将一致性自注意力模块插入到预训练的文本到图像的扩散模型中。这个模块在生成过程中建立图像间的关系,以保持角色的一致性。
  4. 无需训练的插入:Consistent Self-Attention利用原始的自注意力权重,无需额外训练,即可插入并使用。

b.)第二阶段:生成一致性过渡视频

  1. 图像序列到视频:将生成的一致性图像序列通过插入帧转换为视频,这里视作已知起始和结束帧的视频生成任务。
  2. Semantic Motion Predictor:使用语义运动预测器来预测两个给定图像之间的过渡条件。该模块首先将起始帧和结束帧编码到语义空间中,以捕获空间信息。
  3. 预测中间帧:在语义空间中,使用基于Transformer的结构预测器来预测中间帧的嵌入。
  4. 视频扩散模型:将预测的嵌入作为控制信号,使用视频生成模型进行解码,生成最终的过渡视频。

c.)核心流程细节

  • Consistent Self-Attention:通过随机采样来自批次中其他图像的特征token,并在自注意力计算中将它们与当前图像的特征合并,以此来增强图像间的一致性。
  • Semantic Motion Predictor:利用预训练的CLIP图像编码器将图像映射到语义空间,然后通过Transformer块来预测中间帧的嵌入,最后使用视频扩散模型生成视频。

整个StoryDiffusion框架的设计旨在通过这两个阶段,实现文本故事到一致性图像和视频的高效生成,同时保持对文本提示的高控制性。

三、实验结果

a.)总体指标

  • 在与最近的ID保持方法(IP-Adapter和PhotoMaker)进行比较时,StoryDiffusion在文本-图像相似性和角色相似性两个定量指标上均取得了更好的性能。
  • 在过渡视频生成方面,与SEINE和SparseCtrl两种最先进的方法相比,StoryDiffusion在所有四个定量指标(LPIPS-first, LPIPS-frames, CLIPSIM-first, CLIPSIM-frames)上均优于其他方法,表明其在生成一致且无缝过渡视频方面的强性能。

b.)Ablation Study

  • 用户指定ID生成:StoryDiffusion能够结合PhotoMaker生成与给定控制ID一致的一致性图像,展示了方法的可扩展性和即插即用能力。
  • 一致性自注意力的采样率:通过消融研究确定了一致性自注意力的最佳采样率为0.5,既能保持主体一致性,又对扩散过程的影响最小。

四、局限性

  • 对于一些细节(如领带)可能存在一致性问题,可能需要更详细的提示来保持图像间的一致性。
  • 尽管可以使用滑动窗口方法生成更长的视频,但StoryDiffusion并未专门设计用于长视频生成,因此在生成非常长的视频时可能不完美,这是由于缺乏全局信息交换。未来的工作将进一步探索长视频生成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/706539.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[vue] nvm use时报错 exit status 1:一堆乱码,exit status 5

报错exit status 5:�ܾ����ʡ� 原因:因为当前命令提示符窗口是user权限, 解决:cmd使用管理员方式打开就可以 参考: vm use时报错 exit status 1…

华为认证考试流程是怎样的呢?

我们之前讲了华为认证hcie和hcip的学习内容、就业情况,那么华为认证考试流程是怎么样的呢?今天给大家详细介绍一下。 华为认证笔试流程和规则: 1.注册并预约考试 考生须使用华为账号预约考试,通过以下三种方式: ①网…

简单聊聊分布式和集群

前言 分布式和集群,我们都听的比较多,分布式系统和集群的概念对于刚进入职场的小伙伴可能不是很清楚,这篇文章我们就一起看看两者到底是什么,有什么区别。 什么是分布式系统? 先看下书面解释: 分布式系统…

Kotlin核心编程知识点-02-面向对象

文章目录 1.类和构造方法1.1.Kotlin 中的类及接口1.1.1.Kotlin 中的类1.1.2.可带有属性和默认方法的接口 1.2.更简洁地构造类的对象1.2.1.构造方法默认参数1.2.2.init 语句块1.2.3.延迟初始化:by lazy 和 lateinit 1.3.主从构造方法 2.不同的访问控制原则2.1.限制修…

一种新型多任务模型:模仿皮肤科医生进行临床图像中皮肤疾病的准确鉴别诊断

文章目录 A Novel Multi-task Model Imitating Dermatologists for Accurate Differential Diagnosis of Skin Diseases in Clinical Images摘要方法实验结果 A Novel Multi-task Model Imitating Dermatologists for Accurate Differential Diagnosis of Skin Diseases in Cli…

C语言 | Leetcode C语言题解之第86题分隔链表

题目: 题解: struct ListNode* partition(struct ListNode* head, int x) {struct ListNode* small malloc(sizeof(struct ListNode));struct ListNode* smallHead small;struct ListNode* large malloc(sizeof(struct ListNode));struct ListNode* …

Linux基础之进程的优先级

目录 一、进程优先级的概念 二、进程优先级的查看 三、怎么修改进程优先级 四、进程饥饿 一、进程优先级的概念 cpu资源分配的先后顺序,就是指进程的优先权(priority)。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linu…

react18【系列实用教程】useReducer —— 升级版的 useState (2024最新版)

useReducer 可看做升级版的 useState ,其强大之处在于,可以自定义复杂的响应式变量修改逻辑。 useReducer 语法 useReducer 是 hook 函数 第一个参数(必要): 自定义的 reducer 函数(详见下文介绍&#xff…

【算法】网络图中的dfs

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、单词搜索二、黄金矿工三、不同路径 |||四、图像渲染五、岛屿数量六、岛屿的最大面积七、被围绕的区域…

从零入门激光SLAM(十七)——SLAM中为什么用ESKF误差卡尔曼滤波器

上一节,介绍了卡尔曼滤波的基本原理,但在SLAM中却使用ESKF,让我们一起看看具体的原因是什么吧 一、误差卡尔曼滤波器ESKF(Error State Kalman Filter) 1.1动机 在常规的卡尔曼滤波器中,需要假定系统的状态服从高斯分布&#xf…

3D Slicer:从入门到精通(六)——图像分割

图像分割 文章目录 图像分割基本概念分割和段表示方式二进制标签图表示 分割模块教程 基本概念 图像分割(也称为轮廓绘制或注释)是一种在图像中划定区域的程序,通常对应于解剖结构、病变和各种其他对象空间。它是医学图像计算中非常常见的程…

衡量代理IP的因素

当你随便点开百度搜索IP代理,然后你就会看到,五花八门的IP代理商出现在视线中。再点进去链接,我们会发现,大多数IP代理商提供的基础IP服务都大差不差,东家这样说,西家又那样说,尽管我们看的头昏…