Codec-SUPERB @ SLT 2024: 编解码器语音处理通用性能基准

  • 作者:Codec-SUPERB team

  • 比赛注册:https://forms.gle/sBRB4VsoDKkNYQQ98

  • 论文链接:https://arxiv.org/abs/2402.13071

  • 比赛网站: https://codecsuperb.github.io/

  • 公开资料集提交 Evaluation 结果: https://github.com/voidful/Codec-SUPERB/tree/SLT_Challenge

台湾大学、麻省理工大学、卡内基梅隆大学、香港中文大学、微软、Meta、miHoYo的研究团队在 SLT 2024 会议上推出了Codec-SUPERB挑战,旨在公平比较所有现有的编解码模型,并促进更先进编解码技术的发展。

近年来,编解码模型取得了重大进展,开发了许多高性能的神经音频编解码器。理想的神经音频编解码模型应该在低比特率(以千位每秒(kbps)计)下保留内容、副语言信息、说话者及音频信息。然而,哪一种编解码器能最佳地保存音频信息的问题仍未有答案,因为在不同的论文中,模型是在它们选择的实验设置下评估的。本该挑战基于Codec-SUPERB基准,汇集了代表性的语音应用和客观度量标准,全面衡量神经音频编解码模型在不同比特率下保存内容、副语言信息、说话者及音频信息的能力。

 1. 介绍

 神经音频编解码器最初被引入是为了将音频数据压缩成紧凑的代码,以减少传输延迟。最近,研究人员发现编解码器作为将连续音频转换为离散代码的合适分词器的潜力,这些代码可以用来开发音频语言模型(LM)。神经音频编解码器在最小化数据传输延迟和作为分词器的双重角色突显了其关键重要性。近年来,编解码模型取得了重大进展。在过去三年内,开发了许多高性能的神经音频编解码器。理想的神经音频编解码模型应该保存内容、副语言信息、说话者和音频信息。然而,哪一种编解码器能最佳地保存音频信息的问题仍未有答案,因为在不同的论文中,模型是在它们选择的实验设置下评估的。目前缺乏一个挑战,以公平比较所有现有的编解码模型并刺激更先进编解码技术的发展。为了填补这一空白,我们提出了Codec-SUPERB挑战。

2. 比赛概述

这个挑战的目标是鼓励创新方法和全面理解编解码模型的能力。本挑战将进行全面分析,从应用和信号的角度提供对编解码模型的洞察 [1] [2]。我们为参与者准备了一个易于遵循的脚本,包括开放数据集下载、环境安装和评估。

地址:https://github.com/voidful/Codec-SUPERB/blob/SLT_Challenge/README.md

2.1资料集

为了促进编解码技术的发展和挑战提交作品的公平比较,我们计划为每个任务提供两个数据集:开放集和隐藏集。隐藏集将始终对参与者保密。开放集用作开发集。参与者可以使用开放集来评估和开发他们的模型。最终结果将基于隐藏集进行评估。

2.1.1开放资料集

以下列出了我们在本次挑战中使用的数据集。为了解决许可问题,我们替换并删除了原始论文中的一些数据集。我们还仅进行子采样以加快评估速度。

 

2.1.2 隐藏资料集

另一个数据集由我们新创建,并作为隐藏集维护。隐藏集将包括开放集中所有类型数据集的对应数据集。为了构建这些隐藏数据集,我们与LxT (https://www.lxt.ai) 合作,聘请60名人类发言者(确保性别平衡)朗读句子并录制音频。

2.2 信号等级的客观指标

多种信号级别指标的使用,包括语音质量的感知评估(PESQ)、短时客观可懂度(STOI)、信号失真比(SDR),梅尔频谱损失(MelLoss),使我们能够对音频质量进行全面评估,涵盖频谱保真度、时间动态、感知清晰度和可懂度。

2.3 语音应用

应用角度评估将全面分析每个编解码器在保留关键音频信息方面的能力,包括内容(自动语音识别(ASR)的词错误率(WER))、说话者音色(自动说话者验证(ASV)的等错误率(EER))、情感(语音情感识别的准确度)以及一般音频特性(音频事件分类的平均精度均值(mAP))。

2.3.1自动语音识别

对于 ASR 评估,我们使用 Whisper 模型来评估各种编解码器在保存语音中的上下文信息方面的表现。我们使用词错误率(WER)和编辑距离作为主要指标。此评估在 LibriSpeech 数据集上进行,特别关注 test-clean 和 test-other 子集。这些指标有助于确定编解码器在重新合成过程中保持口语内容的清晰度和准确性的有效性。

2.3.2自动语者验证

说话者信息代表了语音中的一个独特且唯一的方面。我们使用ASV(自动说话者验证)来评估由神经编解码器生成的重新合成语音中说话者信息的损失程度。我们使用尖端的说话者验证模型 ECAPA-TDNN 作为预训练的 ASV 模型。我们采用等错误率(EER)作为评估指标,以评估 ASV 在 Voxceleb test-O 集上的表现。EER提供了假接受和拒绝之间的平衡。

2.3.3情绪识别

除了说话者信息外,语音还传达了包括情感在内的情感信息。我们使用ER(情感识别)来量化由于编解码器模型的语音重新合成造成的副语言信息损失。我们使用emotion2vec 来评估一个著名的情感数据集RAVDESS。

2.3.4自动事件分类

AEC任务的目的是评估不同编解码器保持音频事件信息的能力。这是通过使用预训练的 AEC 模型对重新合成音频的音频事件进行分类来实现的。我们使用预训练的对比语言-音频预训练(CLAP)模型在 ESC-50 数据集上进行测试。

 3. 提交结果

我们的主要关注点是与社区分享观察和洞察,而不仅仅是排名。

公开资料集

参与者应通过在GitHub上创建一个 Issue (https://github.com/voidful/Codec-SUPERB/tree/SLT_Challenge) 来提交所有客观指标和应用的评估结果,以及所采用的比特率。

隐藏资料集

  • 如果可以发布模型Checkpoint,参与者可以提交一个脚本,该脚本指示可用的比特率选择,将Waveform 路径作为输入参数,并重新合成Waveform。

  • 如果模型 Checkpoint不能发布,参与者可以提供一个API。组织者将使用该API选择提交的编解码器模型支持的可用比特率,输入Waveform,并重新合成Waveform。

4. 论文提交

在 SLT 2024 会议上,将专门设有一个致力于 Codec-SUPERB 挑战的特别会议。参与 Codec-SUPERB 挑战的参与者可以选择通过常规提交系统提交论文,该系统将经过SLT同行评审过程。此外,挑战参与者还可以选择将描述其系统的论文提交到专门的挑战会议记录中。挑战的组织者将审核这些提交。虽然接受的系统描述论文不会被IEEE索引,但作者将有机会在研讨会的特定会议上展示他们的工作。

[1] Wu, Haibin, et al. "Towards audio language modeling-an overview." arXiv preprint arXiv:2402.13236 (2024).

[2] Wu, Haibin, et al. "Codec-SUPERB: An In-Depth Analysis of Sound Codec Models." arXiv preprint arXiv:2402.13071 (2024).

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/706923.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

后端之路第二站(正片)——SprintBoot

前提:得会基础java和一点maven 前言:不知道出于什么原因,可能是喜欢犯贱吧,本人从大一到大二都一直在专研前端开发,一点也没接触过后端,但是突然抽风想学后端了,想试着自己全栈搞一下项目&#…

逻辑语句的应用

DDL CREATE TABLE student (id INT PRIMARY KEY AUTO_INCREMENT,creatDate DATE NOT NULL,userName VARCHAR(255) NOT NULL,phone VARCHAR(15) NOT NULL,age INT NOT NULL,sex ENUM(M, F, O) NOT NULL, -- 假设M代表男,F代表女,O代表其他introduce TEX…

(5.4–5.10)投融资周报|共38笔公开投融资事件,基础设施领跑,游戏融资活跃

5月4日至5月10日期间,加密市场共发生38笔投融资事件,其中基础设施18笔、游戏5 笔、其他4 笔、DeFi 3笔、Depin 3 笔、CeFi 2笔、NFT2笔、 RWA1笔。 本周千万美金以上融资有5笔: 加密货币交易公司Arbelos完成了一轮2800 万美元的种子轮融资&…

学浪app课程怎么下载到手机_小浪下载工具

在这个快节奏的时代,掌握新知识和技能变得比以往任何时候都要重要。现在,只需几个简单的步骤,您就可以使用小浪下载工具,将学浪app中丰富的课程内容直接下载到手机中。想知道怎么做吗?让我带你详细了解这个过程&#x…

电子合同怎么盖章的

数字证书盖章:利用个人或企业的数字证书进行盖章。数字证书作为数字身份证明,确保了电子签名和盖章的可信度。通过加密技术,确保合同内容不被篡改,盖章过程完成后,合同具有法律效力。 时间戳盖章:在电子合…

sklearn机器学习编程练习大全(二)

sklearn机器学习编程练习大全(二) 第11题 从字符串提取标签第12题 IRIS数据集探索第13题 构建模型,计算准确率第14题 预估目标列编码第15题 one-hot编码 第11题 从字符串提取标签 DataFrame如下: 如何将以上的DataFrame变成如下的…

印染工厂5G智能制造数字孪生可视化平台,推进行业数字化转型

印染工厂5G智能制造数字孪生可视化平台,推进行业数字化转型。印染工厂正迈入一个全新的时代,这个时代以5G智能制造数字孪生可视化平台为核心,推动整个行业的数字化转型。不仅是一场技术革命,更是一次产业变革,为印染工…

Originx的创新解法之:应用程序故障篇

Originx并不期望做一个完整覆盖全栈的监控体系,而是利用北极星指标体系标准化找出故障方向,然后联动各种成熟的监控数据形成证据链条,并将各种数据融合在一个故障报告之中。更多信息请参考 Log | Metrics | Trace的联动方式探讨http://mp.wei…

规范数据处理 保障数据安全 || 「CCRC-DSA数据安全评估师」

数据安全,不容小觑!DSA学习助你成为数据安全评估师! 想要深入了解数据安全领域吗? DSA学习将带你走进数据安全的世界,以《数据安全法》、《数据出境安全评估办法》等法律法规为准绳,让你了解不同行业数据…

微塑料的多营养级!用旧数据再来一篇SCI文章

背 景 微塑料可谓是当前微生物研究的热门题材,其原因在于微塑料可以附着大量的微生物,其存在会对环境中的微生物群落的构建产生很大影响。 海藻养殖生态系统可能是海洋环境中塑料的的汇聚点,也是最具代表性的栖息地生态系统环境。填补微生…