高保真度与流畅度MagicVideo-V2视频生成模型;3D人形虚拟角色;微调量化的扩散模型;自动给视频配音;非自回归音频生成

本文首发于公众号:机器感知

高保真度与流畅度MagicVideo-V2视频生成模型;3D人形虚拟角色;微调量化的扩散模型;自动给视频配音;非自回归音频生成

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

本文提出了MagicVideo-V2视频生成模型,该模型将文生图模型、视频运动生成器、参考图像embedding模块和帧插值模块集成到端到端视频生成管道中,MagicVideo-V2能够生成逼真度与流畅度都较高的高分辨率视频,并显著优于Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等领先的文生视频模型。

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation

图片

本文提出将3D morphable模型集成到多视图一致扩散方法中,提高了生成可控性和人形虚拟角色的质量。这种方法能准确地将面部表情和身体姿态控制纳入生成过程,是首个从单个未见过的人像中创建出完全3D一致、可动画且逼真的人形虚拟角色的扩散模型。

Memory-Efficient Personalization using Quantized Diffusion Model

图片

本文研究了微调量化的扩散模型这一领域,并通过定制三个模型(PEQA用于微调量化参数,Q-Diffusion用于后训练量化,DreamBooth用于个性化),建立了强大的基线模型。分析显示,基线模型在主体和提示保真度之间存在显著的权衡。为了解决这些问题,作者提出了两种策略:a.优化选定时间步长的参数集,b.创建多组专用的微调参数集,每个参数集针对不同的时间步长。该方法不仅增强了个性化,而且保持了提示保真度和图像质量,在质量和数量上都显著优于基线。

SonicVisionLM: Playing Sound with Vision Language Models

图片

本文提出了一种名为SonicVisionLM的新框架,通过利用视觉语言模型来生成各种声音效果。该方法首先使用视觉语言模型识别视频中的事件,然后根据视频内容推荐可能的声音。这种方法将图像和音频的匹配任务转化为更易研究的图像到文本和文本到音频的匹配任务。为了提高音频推荐的质量,作者收集了一个大规模数据集,将文本描述映射到特定的声音效果,并开发了时间控制的音频适配器。该方法在将视频转换为音频方面超越了当前SOTA方法,提高了视频与音频的同步性,并改善了音频和视频元素之间的对齐。

Masked Audio Generation using a Single Non-Autoregressive Transformer

图片

本文提出了MAGNeT,一种直接在音频标记流上操作的掩码生成序列建模方法,它由一个单阶段、非自回归transformer组成。在训练期间,预测从掩码调度器获得的掩码标记的范围,而在推理期间,使用多个解码步骤逐步构建输出序列。为了进一步提高生成的音频质量,引入了一种新的评分方法。最后,作者探索了MAGNeT的混合版本,其中以自回归方式将自回归和非自回归模型融合在一起,以生成序列的前几秒,而其余的序列则并行解码。这种方法与所评估的基线模型相当,但速度要快7倍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/340859.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ROS2——Parameters

节点可以使用参数来配置各项操作,这些参数可以说布尔值、整数、字符串等类型。节点在启动时会读取参数。我们将参数单独列出来,而不是写在源文件中,这样做可以方便我们调试,因为在不同的机器人、环境中,我们需要的参数…

AI副业拆解:文字生成图文绘本,赋予你的故事生命,Story Agent智能绘本创作神器震撼登场!

大家好我是在看,记录普通人学习探索AI之路。 对话即创作,颠覆传统!🚀 Story Agent,一款前所未有的开源故事绘本生成智能体,让你与科技的边界交融,以对话的形式轻松唤醒内心深处的故事精灵。&…

SpringBoot中使用LocalDateTime踩坑记录

文章目录 前言一、为什么推荐使用java.time包的LocalDateTime而不是java.util的Date?二、使用LocalDateTime和LocalDate时遇到了哪些坑?2.1 Redis序列化报错2.1.1 问题现象2.1.2 问题分析2.1.3 解决方案 2.2 LocalDateTime和LocalDate类型的属性返回给前…

Vue3:使用解构赋值来读取对象里的键-值对(值也是对象)

一、前言 在Vue3中,想要读取一个对象的“键—值”对(值也是一个对象),数据格式如下: {1:{courseName: 课程1, study: 951526, visit: 3785553},2:{courseName: 课程2, study: 181630, visit: 380830}&…

超实用的公众号内容制作流程,小白也能轻松学会

公众号是以内容为王的平台,保持优质原创内容发布可以给公众号带来源源不断的流量,稳定输出内容,会获得平台的流量扶持。 很多小伙伴运营公众号都没有什么阅读量,一方面是公众号内容同质化越来越严重,另外一方面是公众…

NetSuite 收入管理模块与总账的数据一致性检查

收入管理模块是NetSuite的一个艰深功能领域,能够有所实践,知原理懂变化的实施顾问少之又少。很高兴,我们的财务顾问Chris在23年底经历了一次深入的NetSuite收入管理模块的实践,对收入管理模块与总账递延收入和收入数据的一致性检查…

2023年第三届【金铲奖】重磅发布!

出品|产业家 第三届金铲奖来了! 在过去的一年时间里,我们清晰地看到,产业数字化的潮水更加汹涌澎湃且势不可挡,越来越多的企业开始寻求数字化转型,它们来自金融、工业、农业、医疗、能源、教育等等。 产业数字化&am…

Modern C++ std::mutex底层原理

前言 我时常有这样的疑问: std::mutex怎么就能保证后面的语句100%安全哪?CPU reordering就不会把这些语句重排到mutex前面执行?而且各个CPU都是有L1、L2缓存的,如果mutex后面要访问的的变量在这些缓存中怎么办? 带着…

中央处理器CPU(1)----指令周期和微程序

前言:由于期末复习计算机组成效率太慢所以抽时间写一下文章总结一下思路,理解不是很深,欢迎各位不吝赐教。 由于时间不是很充分,所以有些考点由于我们不考试,一笔带过了。 我这是期末复习总结,不是考研知识…

开源C语言库Melon:数据恢复算法

本文讲述开源C语言库Melon中的里德所罗门纠错码的使用。 关于 Melon 库,这是一个开源的 C 语言库,它具有:开箱即用、无第三方依赖、安装部署简单、中英文文档齐全等优势。 Github repo 简介 里德所罗门编码是一种纠错码技术,…

如何理解线程池中的参数设计

如何理解线程池中的参数设计 你的线程池的参数怎么配置?线程数量设置多少合理?如何确定一个线程池中的人物已经完成了为什么不建议使用java自带的Executors创建线程池线程池里面的阻塞队列设置多少合理? 考察:了解你对技术的掌握…

k8s-调度 13

调度器通过 kubernetes 的 watch 机制来发现集群中新创建且尚未被调度到 Node 上的 Pod。调度器会将发现的每一个未调度的 Pod 调度到一个合适的 Node 上来运行。 kube-scheduler 是 Kubernetes 集群的默认调度器,并且是集群控制面的一部分。 如果你真的希望或者有…