【AI视野·今日Sound 声学论文速览第三十三期】Wed, 25 Oct 2023-编程知识

AI视野·今日CS.Sound 声学论文速览
Wed, 25 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

CDSD: Chinese Dysarthria Speech Database
Authors Mengyi Sun, Ming Gao, Xinchen Kang, Shiru Wang, Jun Du, Dengfeng Yao, Su Jing Wang
我们推出中文构音障碍语音数据库 CDSD，作为构音障碍研究的宝贵资源。该数据库包含 24 名构音障碍参与者的语音数据。在这些参与者中，一名参与者额外录制了 10 小时的演讲数据，而每人则录制了 1 小时，最终获得了 34 小时的演讲材料。为了适应不同认知水平的参与者，我们的文本库主要由 AISHELL 1 数据集的内容和中小学生的演讲组成。当参与者阅读这些文本时，他们必须使用移动设备或ZOOM F8n多轨现场录音机来录制他们的演讲。在本文中，我们阐明了数据收集和注释过程，并提出了一种建立构音障碍语音识别基线的方法。此外，我们还使用一位参与者额外 10 小时的语音数据进行了依赖于说话者的构音障碍语音识别实验。我们的研究结果表明，通过广泛的数据驱动模型训练，微调有限数量的特定个体数据在依赖于说话者的构音障碍语音识别中产生了值得称赞的结果。然而，我们观察到不同构音障碍说话者的识别结果存在显着差异。

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models
Authors Florian Schmid, Khaled Koutini, Gerhard Widmer
大规模音频数据集（例如 AudioSet）的引入，为 Transformer 征服音频领域并取代 CNN 成为许多任务的最先进的神经网络架构铺平了道路。音频频谱图转换器非常擅长利用大型数据集，创建强大的预训练模型，当对下游任务进行微调时，这些模型超越了 CNN。然而，与 CNN 相比，当前流行的音频频谱图转换器在计算复杂性方面要求更高。最近，我们已经证明，通过使用 Transformer 进行 CNN 知识蒸馏，高效的 CNN 可以在大型数据集上赶上甚至超越 Transformer。在这项工作中，我们通过引入由动态非线性、动态卷积和注意力机制构成的动态 CNN 块，扩展了这一研究方向并提高了高效 CNN 的容量。我们证明，在大规模 AudioSet 上的音频标记任务中，这些动态 CNN 在性能复杂性权衡和参数效率方面优于传统的高效 CNN。

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features
Authors Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
设备定向语音检测 DDSD 是一种二元分类任务，用于区分针对语音助手的查询与侧面对话或背景语音。最先进的 DDSD 系统使用语言提示，例如声学、文本和/或自动语音识别系统 ASR 功能，将语音分类为设备定向或其他，并且通常必须应对这些模式中的一种或多种在实际部署时不可用的情况世界设定。在本文中，我们研究了 DDSD 系统的融合方案，该方案可以使缺失的模态更加稳健。同时，除了 DDSD 的言语线索外，我们还研究非言语线索的使用，特别是韵律特征。我们提出了不同的方法，将韵律的分数和嵌入与相应的语言线索相结合，发现韵律通过非线性中间融合在给定的固定操作点上将错误接受率 FA 的 DDSD 性能提高了高达 8.5，而我们使用模态

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下，可以使用视频拍摄的环境记录，这可以帮助完成此过程。然而，在视频游戏和动画中，不存在参考音频，需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统，然后将其与音频或文本嵌入结合使用，以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式，我们将完全的创意控制权交给了声音设计师，同时消除了与视频同步的负担。此外，编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多，从而简化了可听化过程。

How Much Context Does My Attention-Based ASR System Need?
Authors Robert Flynn, Anton Ragni
对于语音识别任务，在训练期间使用超过 30 秒的声学上下文并不常见，并且文献中对此进行了研究。在这项工作中，我们研究了缩放用于训练评估基于密集注意力的声学和语言模型的序列长度对语音识别性能的影响。在这些实验中，使用了大约 100,000 个伪标记 Spotify 播客的数据集，并探索了 5 秒到 1 小时的上下文长度。对长格式数据集 Earnings 22 和 Tedlium 的零样本评估表明，使用大约 80 秒的声学环境进行训练有好处，与有限的环境基线相比，相对提高了 14.9。

FOLEY-VAE: Generación de efectos de audio para cine con inteligencia artificial
Authors Mateo C mara, Jos Luis Blanco
在这项研究中，我们提出了一个基于变分自动编码器的界面，该编码器经过各种自然声音的训练，用于创新地创建拟音效果。该模型可以将新的声音特征传输到预先录制的音频或麦克风实时捕获的语音中。此外，它还允许交互修改潜在变量，促进精确和定制的艺术调整。以我们之前在去年同一大会上提出的变分自动编码器研究为起点，我们分析了现有的实现 RAVE 1 。该模型经过专门针对音频效果制作的训练。已成功生成各种音频效果，包括电磁、科幻和水声等随本作品发布的声音。这种创新方法成为西班牙第一部人工智能辅助音效短片的艺术创作基础。

The Mason-Alberta Phonetic Segmenter: A forced alignment system based on deep neural networks and interpolation
Authors Matthew C. Kelley, Scott James Perry, Benjamin V. Tucker
给定正字法转录后，强制对齐系统自动确定语音数据中片段之间的边界。这些工具在语音学中很常见，以方便使用无法手动转录和分段的语音数据。在本文中，我们描述了一种新的基于神经网络的强制对齐系统，Mason Alberta Phonetic Segmenter MAPS。 MAPS 对准器可作为我们对强制对准系统追求的两项可能改进的测试平台。第一个是将强制对齐器中的声学模型视为标记任务，而不是分类任务，其动机是基于语音片段并不是真正离散且通常重叠的共识。第二种是插值技术，使边界比现代强制对准系统中常见的 10 毫秒限制更精确。我们将我们的系统配置与最先进的系统蒙特利尔强制对准器进行比较。与蒙特利尔强制对准器相比，标记方法通常不会产生更好的结果。然而，使用插值技术的系统在测试集上目标 10 毫秒内的边界数量相对于蒙特利尔强制对准器增加了 27.92。我们还反思了强制对齐中声学建模的任务和训练过程，强调这些模型的输出目标如何与语音学家对音素之间相似性的概念不匹配，并且这种张力的协调可能需要重新思考任务和输出目标或语音如何

GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds
Authors Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru
我们提出了一种新的客观清晰度测量 OIM ，称为 Gammachirp 包络相似度指数 GESI ，它可以预测正常听力 NH 听众的模拟听力损失 HL 声音的语音清晰度 SI 。 GESI 是一种侵入式方法，它使用 gammachirp 滤波器组 GCFB、调制滤波器组和扩展余弦相似性度量来计算 SI 度量。 GESI 可以接受参考声音和测试声音的水平不对称性，并反映听力图上显示的 HI 听众的听力水平。 GESI 的一个独特功能是它能够将单个参与者的收听条件纳入 SI 预测中。我们在实验室和众包远程环境中对男性和女性语音进行了四次 SI 实验。然后，我们评估了 GESI 和传统的 OIM、STOI、ESTOI、MBSTOI 和 HASPI，了解它们在使用或不使用模拟 HL 声音的情况下预测平均 SI 值和单个 SI 值的能力。 GESI 在所有评估中均优于其他 OIM。即使使用模拟的 HL 声音，STOI、ESTOI 和 MBSTOI 也根本无法预测 SI。 HASPI 没有预测实验室和远程实验对男性语音和个体 SI 值的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com