人工智能现在可以从文本中生成具有CD音质的音乐,而且只会越来越好

现在说,否则永远停止你的节拍
想象一下,键入“戏剧性的介绍音乐”并听到一首飙升的交响乐,或者编写“令人毛骨悚然的脚步声”并获得高质量的音效。这是稳定音频的承诺,一个文本到音频的人工智能模型周三宣布由能合成立体声的稳定人工智能44.1千赫来自文字描述的音乐或声音。不久,类似的技术可能会挑战音乐家的工作。

如果你还记得的话,Stability AI是帮助投资创建稳定扩散,2022年8月发布的潜在扩散图像合成模型。该公司不满足于制作图像,还通过后台支持将业务扩展到了音频领域哈蒙奈,一个推出音乐生成器的人工智能实验室舞蹈扩散九月。

现在Stability和Harmonai想用稳定音频打入商业ai音频制作。由…判断生产样品,这似乎是一个重大的音频质量升级,从以前的人工智能音频发生器,我们已经看到了。

在其宣传页面上,Stability提供了人工智能模型的例子,并提供了“史诗预告片音乐,强烈的部落打击乐器和铜管乐器”和“lofi hip hop beat melody chill hop 85 BPM”等提示。它还提供了使用稳定音频生成的声音效果样本,如航空公司飞行员通过对讲机讲话和人们在繁忙的餐馆中交谈。

为了训练它的模型,稳定性与股票音乐提供商合作AudioSparx并授权了一个数据集“由超过800,000个音频文件组成,包含音乐、声音效果和单乐器词干,以及相应的文本元数据。”在将19,500小时的音频输入模型后,Stable Audio知道如何模仿它在命令下听到的某些声音,因为这些声音在其神经网络中与它们的文本描述相关联。

由Stability AI提供的稳定音频架构的框图
稳定音频包含几个部分,它们协同工作以快速创建自定音频。一部分以保留重要特征的方式缩小音频文件,同时去除不必要的噪音。这使得系统既能更快地进行教学,又能更快地创建新的音频。另一部分使用文本(音乐和声音的元数据描述)来帮助指导生成哪种音频。

为了加快速度,稳定音频架构对高度简化的压缩音频表示进行操作,以减少推理时间(机器学习模型在获得输入后生成输出所需的时间)。根据Stability AI的说法,Stable Audio可以以44.1 kHz的采样率渲染95秒的16位立体声音频(通常称为“CD质量因为它符合CD格式的技术规格)Nvidia A100 GPU。A100是为人工智能使用而设计的强大的数据中心GPU,它比典型的桌面游戏GPU更有能力。

虽然生成的音频在位深度和采样速率方面可能符合CD规范,但值得注意的是,稳定音频产生的音乐的实际感知质量可能会有很大差异,尤其是因为音频是从数据集中的压缩表示中生成的。

如上所述,稳定的音频并不是第一个基于潜在扩散技术的音乐发生器。去年12月,我们报道了重复融合一个业余爱好者对稳定扩散的音频版本感兴趣,尽管其产生的几代产品在质量上远远达不到稳定音频的样本。今年1月,谷歌发布了MusicLM,这是一个24 kHz音频的人工智能音乐生成器,Meta推出了一套开源音频工具(包括一个文本到音乐生成器),名为音频工艺八月。现在,随着44.1千赫立体声音频,稳定的扩散正在增加赌注。

稳定性说,稳定的音频将可在一个免费层和12美元每月专业计划。通过免费选项,用户每月可以生成多达20首曲目,每首曲目最长20秒。Pro计划扩展了这些限制,允许每月生成500首曲目,曲目长度可达90秒。未来的稳定版本预计将包括基于稳定音频架构的开源模型,以及为那些对开发音频生成模型感兴趣的人提供的培训代码。

就目前情况而言,考虑到音频保真度,我们可能处于生产质量的人工智能生成的稳定音频音乐的边缘。音乐人被AI模特取代会开心吗?不太可能,如果历史告诉我们艾在视觉艺术领域的抗议。目前,人类可以轻松超越人工智能可以产生的任何东西,但这种情况可能不会持续太久。无论如何,人工智能生成的音频可能会成为专业人员音频制作工具箱中的另一个工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/110285.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

进化算法、遗传编程和学习

一、说明 进化算法是一系列搜索算法,其灵感来自自然界(达尔文主义)进化过程。所有不同家庭成员的共同点是,通过应用受自然遗传学和自然选择启发的 算子,通过进化出最初 随机的候选解决方案群体来解决问题&#…

C++之哈希表、哈希桶的实现

哈希表、哈希桶的实现 哈希概念哈希冲突哈希函数哈希冲突解决闭散列哈希表闭散列实现哈希表的结构哈希表的插入哈希表的查找哈希表的删除 开散列开散列概念哈希表的结构哈希表的插入哈希表的查找哈希表的删除 哈希概念 顺序结构以及平衡树中,元素关键码与其存储位置…

Vue自动生成二维码并可下载二维码

遇到一个需求,需要前端自行生成用户的个人名片分享二维码,并提供二维码下载功能。在网上找到很多解决方案,最终吭哧吭哧做完了,把它整理记录一下,方便后续学习使用!嘿嘿O(∩_∩)O~ 这个小东西有以下功能特点…

HomeAssistant接入天猫精灵

通过巴法云让HomeAssistant接入天猫精灵,实现天猫精灵控制小米等其他第三方智能家具设备。 原文地址:HomeAssistant接入天猫精灵 1、巴法云注册 在https://cloud.bemfa.com/user/index.html?c2 里进行注册, 注册完成后进行登录&#xff…

持安科技孙维伯:零信任理念下的实战攻防:ISC2023数字小镇演讲

近日,在ISC 2023第十一届互联网安全大会上,持安科技联合创始人孙维伯作为零信任办公安全赛道代表,亮相数字小镇New50,并发表《全方位防御:零信任理念下的实战攻防》主题演讲。 以下是本次演讲实录: 这几年…

Redis-渐进式遍历scan的使用

目录 1、为什么使用渐进式遍历? 2、scan的使用 3、渐进式遍历的缺点 4、补充知识点:redis中也区分database 1、为什么使用渐进式遍历? 前面的博客中,我们有提到使用keys *来获取所有的key,但这种办法,…

UE5学习笔记(1)——从源码开始编译安装UE5

目录 0. 前期准备1. Git bash here2. 克隆官方源码。3. 选择安装分支4. 运行Setup.bat,下载依赖文件5. 运行GenerateProjectFiles.bat生成工程文件6. 生成完成,找到UE5.sln/UE4.sln7. 大功告成 0. 前期准备 0.1 在windows的话,建议装一个Git…

HarmonyOS/OpenHarmony应用开发-DevEco Studio新建项目的整体说明

一、文件-新建-新建项目 二、传统应用形态与IDE自带的模板可供选用与免安装的元服与IDE中自带模板的选择 三、以元服务,远程模拟器为例说明IDE整体结构 1区是工程目录结构,是最基本的配置与开发路径等的认知。 2区是代码开发与修改区,是开发…

Vim的基础操作

前言 本文将向您介绍关于vim的基础操作 基础操作 在讲配置之前,我们可以新建一个文件 .vimrc,并用vim打开在里面输入set nu 先给界面加上行数,然后shift ;输入wq退出 默认打开:命令模式 在命令模式中&#xff1a…

Nautilus Chain 引入 $NAUT 通证,延续 $ZBC 的价值

近日,在 Zebec 治理系统中上线了一个全新的提案,即社区投票是否推出 $NAUT 通证,以作为 Nautilus Chain 上的原生通证。该提案以 98% 以上的支持率投票通过,这意味着 Nautilus Chain 将在 Nautilus Chain 上推出 $NAUT 通证。不过…

golang for循环append的数据重复

原因,因为使用了& 需要增加一行,问题解决

国庆中秋特辑(一)浪漫祝福方式 用循环神经网络(RNN)或长短时记忆网络(LSTM)生成祝福诗词

目录 一、使用深度学习中的循环神经网络(RNN)或长短时记忆网络(LSTM)生成诗词二、优化:使用双向 LSTM 或 GRU 单元来更好地捕捉上下文信息三、优化:使用生成对抗网络(GAN)或其他技术…