TTS 擂台: 文本转语音模型的自由搏击场

对文本转语音 (text-to-speech, TTS) 模型的质量进行自动度量非常困难。虽然评估声音的自然度和语调变化对人类来说是一项微不足道的任务,但对人工智能来说要困难得多。为了推进这一领域的发展,我们很高兴推出 TTS 擂台。其灵感来自于LMSys为 LLM 提供的Chatbot 擂台。借鉴 Chatbot 擂台的做法,我们开发了一款工具,让任何人可以很轻松地对 TTS 模型进行并排比较。你仅需提交想要转成语音的文本,然后听一下两个不同的模型生成的音频,最后投票选出生成质量较好的模型。我们把投票结果组织成一个排行榜,用以展示社区评价最高的那些模型。

  • LMSyshttps://lmsys.org/

  • Chatbot 擂台https://hf.co/spaces/lmsys/chatbot-arena-leaderboard

31692de1a629e12a676fabcef15c0ec1.png

动机

长期以来,语音合成领域缺乏准确的方法以度量不同模型的质量。常用客观指标 (如 WER (word error rate,单词错误率) 等) 并不能可靠地度量模型质量,而 MOS (mean opinion score,平均意见得分) 等主观指标通常只适用于对少数听众进行小规模实验。因此,这些评估标准在对质量大致相当的两个模型进行比较时并无用武之地。为了解决这些问题,我们设计了易用的界面,并邀请社区在界面上对模型进行排名。通过开放这个工具并公开评估结果,我们希望让人人都参与到模型比较和选择中来,并共享其结果,从而实现模型排名方式的民主化。

TTS 擂台

由人类来对人工智能系统进行排名并不是什么新方法。最近,LMSys 在其Chatbot 擂台中采用了这种方法,取得了很好的效果,迄今为止已收集到超过 30 万个投票。被它的成功所鼓舞,我们也采用了类似的框架,邀请每个人投票参与音频合成效果的排名。

  • Chatbot 擂台https://arena.lmsys.org/

具体方法很简单: 用户输入文本,会有任意两个模型对该文本进行合成; 用户在听完两个合成音频后,投票选出哪个模型的输出听起来更自然。为了规避人为偏见和滥用的风险,只有在提交投票后才会显示模型名称。

目前在打擂的模型

我们为排行榜选择了如下几个最先进 (SOTA) 的模型。其中大多数都是开源模型,同时我们还纳入了几个私有模型,以便开发人员可以对开源社区与私有模型各自所处的状态进行比较。

首发的模型有:

  • ElevenLabs (私有模型)

  • MetaVoice

  • OpenVoice

  • Pheme

  • WhisperSpeech

  • XTTS

尽管还有许多其他开源或私有模型,我们首发时仅纳入了一些被普遍认同的、最高质量的公开可用模型。

TTS 排行榜

我们会将擂台票选结果公开在专门的排行榜上。请注意,每个模型只有积累了足够的投票数后才会出现在排行榜中。每次有新的投票时,排行榜都会自动更新。

跟 Chatbot 擂台一样,我们使用与Elo 评级系统类似的算法对模型进行排名,该算法常用于国际象棋以及一些其他游戏中。

  • Elo 评级系统https://en.wikipedia.org/wiki/Eloratingsystem

总结

我们希望TTS 擂台能够成为所有开发者的有用资源。我们很想听听你的反馈!如果你有任何问题或建议,请随时给我们发送X/Twitter 私信或在擂台 Space 的社区中开个帖子和我们讨论。

  • TTS 擂台https://hf.co/spaces/TTS-AGI/TTS-Arena

  • X/Twitter 私信https://twitter.com/realmrfakename

  • 擂台 Space 的社区中开个帖子https://hf.co/spaces/TTS-AGI/TTS-Arena/discussions

致谢

非常感谢在此过程中给予我们帮助的所有人,包括Clémentine Fourrier、Lucian Pouget、Lucian Pouget、Main Horse以及整个 Hugging Face 团队。特别要感谢VB的时间及技术协助。还要感谢Sanchit Gandhi和Apolinário Passos在开发过程中提供的反馈及支持。

  • Clémentine Fourrierhttps://twitter.com/clefourrier

  • Lucian Pougethttps://twitter.com/wauplin

  • Yoach Lacombehttps://twitter.com/wauplin

  • Main Horsehttps://twitter.com/mainhorse

  • VBhttps://twitter.com/reachvb

  • Sanchit Gandhihttps://twitter.com/sanchitgandhi99

  • Apolinário Passoshttps://twitter.com/multimodalart


英文原文: https://hf.co/blog/arena-tts

原文作者: mrfakename, Vaibhav Srivastav, Clémentine Fourrier, Lucain Pouget, Yoach Lacombe, Main Horse, Sanchit Gandhi

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/548771.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

08|记忆:通过Memory记住客户上次买花时的对话细节

无论是LLM还是代理都是无状态的,每次模型的调用都是独立于其他交互的。也就是说,我们每次通过API开始和大语言模型展开一次新的对话,它都不知道你其实昨天或者前天曾经和它聊过天了。 使用ConversationChain from langchain import OpenAI…

C语言例:表达式 45-35+1^2 的值

代码如下&#xff1a; #include<stdio.h> int main(void) {int a;a 4&5-3&&51^2;printf("4&5-3&&51^2 %d\n",a);return 0; } 结果如下&#xff1a;

18 优先级队列

priority_queue介绍 1.优先级队列是一种容器适配器&#xff0c;根据弱排序标准&#xff0c;它的第一个元素总是最大的 2.此上下文类似于堆&#xff0c;堆中可以随时插入元素&#xff0c;检索最大堆元素 3.优先队列实现为容器适配器&#xff0c;容器适配器即将特定容器类封装作…

代码随想录|Day23|回溯03|39.组合总和、40.组合总和II、131.分割回文串

39.组合总和 本题和 216.组合总和III 类似&#xff0c;但有几个区别&#xff1a; 没有元素个数限制&#xff1a;树的深度并不固定&#xff0c;因此递归终止条件有所变化每个元素可以使用多次&#xff1a;下层递归的起始位置和上层相同&#xff08;startIndex不需要改动&#xf…

PostgreSQL中vacuum 物理文件truncate发生的条件

与我联系&#xff1a; 微信公众号&#xff1a;数据库杂记 个人微信: iiihero 我是iihero. 也可以叫我Sean. iiheroCSDN(https://blog.csdn.net/iihero) Sean墨天轮 (https://www.modb.pro/u/16258) 数据库领域的资深爱好者一枚。 水木早期数据库论坛发起人 db2smth就是俺&am…

特约撰稿 | 李杰:2024快消品牌企业如何赢在数字化?

随着用户群体、消费场景的细分&#xff0c;以及渠道的进一步多元化&#xff0c;让快消品企业遇到了一些机遇与挑战&#xff0c;在这样的大趋势之下&#xff0c;2024年快消品牌企业&#xff0c;要脱颖而出赢得增长&#xff0c;必须要把握战略上的机会。 作者&#xff5c;纷享销…

苍穹外卖-day09:用户端历史订单模块(理解业务逻辑),商家端订单管理模块(理解业务逻辑),校验收货地址是否超出配送范围(相关API)

用户端历史订单模块 1. 查询历史订单&#xff08;分页查询&#xff09; 1.1 需求分析和设计 产品原型&#xff1a; 业务规则 分页查询历史订单可以根据订单状态查询展示订单数据时&#xff0c;需要展示的数据包括&#xff1a;下单时间、订单状态、订单金额、订单明细&#…

探寻源码宝藏:介绍开源项目“source-code-hunter“

最近处于金三银四的面试黄金期&#xff0c;许多同学在面试中反映现在要求非常高&#xff0c;阅读源码几乎是必问项。然而&#xff0c;阅读源码时常常觉得晦涩难懂&#xff0c;令人头疼。今天在浏览 GitHub 时&#xff0c;我发现了一个名为 source-code-hunter 的宝藏项目。这个…

苍穹外卖-day06:HttpClient、微信小程序开发、微信登录(业务流程)、导入商品浏览功能代码(业务逻辑)

苍穹外卖-day06 课程内容 HttpClient微信小程序开发微信登录导入商品浏览功能代码 功能实现&#xff1a;微信登录、商品浏览 微信登录效果图&#xff1a; 商品浏览效果图&#xff1a; 1. HttpClient 1.1 介绍 HttpClient 是Apache Jakarta Common 下的子项目&#xff0c;…

在Linux系统中如何查询日志?

在工作中&#xff0c;我们有时候会定位问题&#xff0c;这时候就需要查询日志了&#xff0c;那么查询日志的命令有哪些呢&#xff1f; cat 查看某个日志文件中的所有内容。 使用示例&#xff1a;cat file.txt 显示 file.txt 文件的所有内容。 如果要对查询的结果进行筛选&am…

代码随想录算法训练营第11天| 20. 有效的括号,1047. 删除字符串中的所有相邻重复项,150. 逆波兰表达式求值

系列文章目录 目录 系列文章目录20. 有效的括号利用栈对称匹配将栈中元素弹出与判断栈顶元素是否匹配分开&#xff0c;比较耗时&#xff08;2ms)&#xff1a;若将栈中元素弹出与判断栈顶元素是否匹配放一起&#xff0c;比较节省时间(1ms)&#xff1a; 1047. 删除字符串中的所有…