WavJourney:进入音频故事情节生成世界的旅程

推荐:使用 NSDT场景编辑器快速搭建3D应用场景

若要正确查看音频生成的强大功能,请考虑以下方案。我们只需要提供一个简单的指令,描述场景和场景设置,模型就会生成一个扣人心弦的音频脚本,突出与原始指令的最高上下文相关性。

指令: 在科幻小说主题中生成音频:火星新闻报道人类向半人马座阿尔法星发送光速探测器。从新闻主播开始,然后是记者采访由联合地球和火星政府创立的建造这个探测器的组织的总工程师,最后再次以新闻主播结束。

生成的音频:https://audio-agi.github.io/WavJourney_demopage/sci-fi/sci-fi%20news.mp4

为了真正了解这个奇迹的内部运作,让我们深入了解生成过程的方法和实现细节。

生成过程

下图在一个简单的流程图中总结了整个过程。

WavJourney:进入音频故事情节生成世界的旅程

端到端音频生成过程由多个子模块组成,这些子模块按顺序执行,用于完整的文本到音频模型。

音频脚本生成

WavJourney利用GPT-4模型和预定义的提示模板来生成脚本。提示模板将输出限制为简单的 JSON 格式,以后计算机程序可以轻松解析。每个脚本都有 3 种不同的音频类型,如上图所示:语音音效音乐。然后,每种音频类型都可以作为前景音频运行,也可以作为背景声音效果覆盖在其他音频上。其他属性(如内容描述、长度和字符)足以正式定义脚本生成的音频设置。

脚本解析

然后,输出脚本通过计算机程序传递,该程序解析预定义 JSON 脚本格式中的相关信息。它将每个描述和字符与预设的语音音频相关联。此过程有助于将音频生成过程分解为单独的步骤,包括文本到语音转换、音乐和声音添加。

音频生成

解析后的脚本作为 Python 程序执行。首先生成前景语音,由背景音乐和音效覆盖。对于语音生成,该模型使用预先训练的 Bark 模型和 VoiceFixer 恢复模型来提高音频质量。AudioLDM和MusicGen模型用于声音效果和音乐叠加。所有三种型号的输出组合在一起,形成最终的音频输出。

人机共创

该过程维护生成的脚本的上下文,并且可以类似于 GPT 模型进行提示。您可以使用 GPT 模型的人工反馈和聊天功能轻松修改生成的脚本。

添加特定的细节和音效再简单不过了。下面的流程图显示了添加或修改生成的脚本的特定详细信息是多么简单。

结论

音频生成模式可以改变娱乐行业的游戏规则。该过程能够生成引人入胜的叙述和故事,可用于教育和娱乐目的,自动化繁琐的画外音和视频生成过程。

有关详细理解,请在此处概述论文。该代码将很快在GitHub上提供。

原文链接:WavJourney:进入音频故事情节生成世界的旅程 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/107199.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

virtualbox 扩展磁盘大小

此处设置完成后,还需要进入虚拟机,实际扩展磁盘大小 参考 https://zhuanlan.zhihu.com/p/319431032

大数据课程K22——Spark的SparkSQL的API调用

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Spark的通过api使用SparkSQL; 一、通过api使用SparkSQL 1. 实现步骤 1. 打开scala IDE开发环境,创建一个scala工程。 2. 导入spark相关依赖jar包。 3. 创建包路径以object类。 4.…

Ubutnu python2与python3切换

python -V #查看默认版本 Python 2.7.17 python3 -V #查看电脑3的版本 Python 3.6.9 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2.7 1 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.6 2 #设置两个版本的…

[杂谈]-从硬件角度理解二进制数

从硬件角度理解二进制数 文章目录 从硬件角度理解二进制数1、概述2、模拟电路3、数字电路4、逻辑电平5、TTL 器件的电压水平6、总结 1、概述 二进制数以 2 为基数系统表示,该系统只有两 (2) 个不同的数值,即 0 和 1。就像最常见的那样,十进制…

Redis I/O多路复用机制

一、基础回顾 1.1 多路复用要解决什么问题 并发多客户端连接场景,在多路复用之前最简单和典型的方案就是同步阻塞网络IO模型。 这种模式的特点就是用一个进程来处理一个网络连接(一个用户请求),比如一段典型的示例代码如下。 直接调用 recv 函数从一个 socket 上…

Claude 2,它有 GPT-4 一些无法超越的能力

文章目录 场景1:处理长文本场景2:上传文件场景3:进行冗长的多轮对话场景4:我的提示词里涉及2021年9月之后的信息 场景1:处理长文本 和 ChatGPT 相比,Claude 2 最大的优势就是它高达 10 万的 Token 数量。要…

类和对象(1)

文章目录 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符和封装4.1访问限定符4.2封装 5.类的作用域6.类的实例化6.2结构体内存对齐规则 7.this指针7.2this指针的特性 封装(补充) 1.面向过程和面向对象初步认识 C面向对象但不纯面向…

vue中的计算属性computed

计算属性conputed 概念&#xff1a;基于现有的数据&#xff0c;计算出来的新属性。依赖的数据变化&#xff0c;自动重新计算。 语法: 声明在computed配置项中&#xff0c;一个计算属性对应一个函数使用起来和普通属性一样使用 {{计算属性名}} 简写方式&#xff1a; <!DOC…

[libc-2.31 off_by_null] N0wayBack ezheap练习

以前保留了个WP&#xff0c;但是没复现过也没法用&#xff0c;用了两个晚上慢慢理复现一下。 先看这个题 while ( 1 ){menu();__isoc99_scanf("%d", &v3);switch ( v3 ){case 1:m1add(); //带readbreak;case 2:m2free();break;case 3:m3edit(); //溢出br…

C语言_指针进阶(下)

文章目录 前言一、函数指针数组二、指向函数指针数组的指针三. 回调函数四. qsort 函数五. 数组名的理解 sizeof5.1 数组名的理解&#xff08;二维数组)5.1.1 数组名的理解 strlen5.1.2 例题&#xff1a;例一.例二.例三.例四. 前言 一、函数指针数组 数组是一个存放相同类型数…

基于STM32程序万年历液晶1602显示-proteus仿真-源程序

一、系统方案 本设计采用STM32单片机作为主控器&#xff0c;液晶1602显示&#xff0c;按键设置万年历。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化 //通用定时器3中断初始化 //这里时钟选择为APB1的2倍&#xff0c;而APB1为36M //arr&…

强大的JTAG边界扫描(5):FPGA边界扫描应用

文章目录 1. 获取芯片的BSDL文件2. 硬件连接3. 边界扫描测试4. 总结 上一篇文章&#xff0c;介绍了基于STM32F103的JTAG边界扫描应用&#xff0c;演示了TopJTAG Probe软件的应用&#xff0c;以及边界扫描的基本功能。本文介绍基于Xilinx FPGA的边界扫描应用&#xff0c;两者几乎…