【AI视野·今日Sound 声学论文速览第四十七期】Fri, 12 Jan 2024-编程知识

AI视野·今日CS.Sound 声学论文速览
Fri, 12 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Contrastive Loss Based Frame-wise Feature disentanglement for Polyphonic Sound Event Detection
Authors Yadong Guan, Jiqing Han, Hongwei Song, Wenjie Song, Guibin Zheng, Tieran Zheng, Yongjun He
重叠的声音事件在现实环境中普遍存在，但现有的端到端声音事件检测 SED 方法仍然难以有效地检测它们。一个关键原因是这些方法使用共享和纠缠的帧特征来表示重叠事件，这降低了特征辨别力。为了解决这个问题，我们提出了一个解开的特征学习框架来学习类别特定的表示。具体来说，我们使用不同的投影仪来学习每个类别的逐帧特征。为了确保这些特征不包含其他类别的信息，我们最大化同一类别内逐帧特征之间的公共信息，并提出逐帧对比损失。此外，考虑到该方法使用的标记数据有限，我们提出了一种半监督逐帧对比损失，可以利用大量未标记数据来实现特征解缠。

Intuitive Control of Scraping and Rubbing Through Audio-tactile Synthesis
Authors Mitsuko Aramaki PRISM , Corentin Bernard PRISM , Richard Kronland Martinet PRISM , Samuel Poirot PRISM , S lvi Ystad PRISM
合成过程的直观控制是听觉感知和认知领域中持续存在的挑战。之前的声音建模工作与心理物理测试相结合，使我们的团队能够开发出一种合成器，该合成器可以根据声源的语义描述提供对动作和对象的直观控制。在此演示中，我们展示了合成器的增强版本，其中添加了触觉刺激，以增加与模拟对象摩擦和刮擦的真实连续摩擦相互作用的感觉。出于多种原因，这一点很有趣。首先，它能够在存在其他形式的刺激的情况下评估我们的声音模型的真实感。

Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection
Authors Lian Huang, Chi Man Pun
由于深度学习的成功应用，音频欺骗检测取得了重大进展。通过语音合成或语音转换的欺骗音频可以通过许多对策很好地检测到。然而，自动说话人验证系统仍然容易受到重放或 Deep Fake 音频等欺骗攻击。 Deep Fake 音频是指使用文本转语音 TTS 和语音转换 VC 算法生成欺骗性话语。在这里，我们提出了一种基于混合特征和自注意力机制的新颖框架。预计可以使用混合特征来获得更多的辨别能力。首先，深度学习特征和梅尔谱图特征将通过两个并行路径卷积神经网络和短时傅里叶变换STFT以及梅尔频率来提取，而不是仅一种类型的常规特征。其次，特征将通过最大池化层连接起来。第三，有一个自我关注机制，用于关注基本元素。最后，构建ResNet和线性层来得到结果。实验结果表明，与传统特征相比，混合特征可以覆盖更多的话语细节。我们在物理访问 PA 场景中实现了 9.67 的最佳等错误率 EER，在 ASVspoof 2021 数据集上的 Deep fake 任务中实现了 8.94 的最佳等错误率 EER。

Neural Ambisonics encoding for compact irregular microphone arrays
Authors Mikko Heikkinen, Archontis Politis, Tuomas Virtanen
麦克风阵列信号的高保真度立体声响编码可以实现各种空间音频应用，例如虚拟现实或远程呈现，但它通常是为均匀间隔的球形麦克风阵列而设计的。本文提出了一种高保真度立体声响复制编码方法，该方法使用深度神经网络 DNN 来估计从麦克风输入到高保真度立体声响复制信号的信号变换。该方法使用由 U Net 结构和可学习预处理组成的 DNN，以及由平均误差、空间相关性和能量保存组件组成的损失函数。该方法在具有四个麦克风的规则和不规则形状的两个麦克风阵列、具有多个源的模拟混响场景上进行了验证。

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression
Authors Yoshihide Tomita, Shoichi Koyama, Hiroshi Saruwatari
提出了一种合成所需声场同时通过方向加权抑制外部辐射功率的方法。在实际情况中，声场合成系统中扬声器的外部辐射可能会产生问题。尽管已经提出了几种抑制外部辐射的方法，但是在所有向外方向上的抑制通常是困难的，特别是当扬声器的数量不够大时。我们提出了方向加权外部辐射表示，通过将其纳入声场合成的优化问题来优先考虑抑制方向。通过使用所提出的表示，由于对外部辐射的宽松约束，可以显着减少优先方向上的外部辐射，同时保持较高的内部合成精度。

Segment Boundary Detection via Class Entropy Measurements in Connectionist Phoneme Recognition
Authors Giampiero Salvi
本文研究了使用联结主义音素识别器输出的类熵来预测语音类之间的时间边界的可能性。基本原理是，熵的值应该在识别网络充分建模的两个片段之间的过渡附近增加，因为它是不确定性的度量。这种方法的优点是它的简单性，因为每个类别的后验概率在联结主义音素识别中都是可用的。熵和基于熵微分的许多度量可以单独使用，也可以组合使用。预测边界的决策方法范围从简单的阈值到基于神经网络的过程。比较不同方法的精度（以参考点 10 或 20 毫秒内预测边界的数量 C 与预测边界总数之间的比率来衡量）和召回率（以 C 和之间的比率衡量）

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition
Authors Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
视听情感识别 AVER 近年来因其在创建情感感知智能机器中的关键作用而受到越来越多的关注。此前该领域的工作主要以监督学习范式为主。尽管取得了重大进展，但由于 AVER 长期存在的数据稀缺问题，监督学习正在遇到瓶颈。受自监督学习最新进展的推动，我们提出了分层对比掩模自编码器 HiCMAE，这是一种新颖的自监督框架，利用对大量未标记的视听数据进行大规模自监督预训练来促进 AVER 的进步。继自监督视听表征学习的现有技术之后，HiCMAE 采用两种主要的自监督形式进行预训练，即屏蔽数据建模和对比学习。与只关注顶层表示而忽略中间层的显式指导不同，HiCMAE 开发了一种三管齐下的策略来促进分层视听特征学习并提高学习表示的整体质量。为了验证 HiCMAE 的有效性，我们对涵盖分类和维度 AVER 任务的 9 个数据集进行了广泛的实验。实验结果表明，我们的方法显着优于最先进的监督和自监督视听方法，这表明 HiCMAE 是一种强大的视听情感表示学习器。

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction
Authors Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang
纠错技术已用于细化自动语音识别 ASR 模型的输出句子，并实现较低的单词错误率 WER。以往的工作通常采用端到端模型，对伪配对数据和原始配对数据有很强的依赖性。但当仅对伪配对数据进行预训练时，先前的模型对校正有负面影响。在对原始配对数据进行微调时，源端数据必须由训练有素的 ASR 模型进行转录，这需要大量时间且不通用。在本文中，我们提出了 UCorrect，一种用于 ASR 纠错的无监督检测器生成器选择器框架。 UCorrect 不依赖于前面提到的训练数据。整个过程首先检测字符是否错误，然后生成一些候选字符，最后选择最有把握的字符来替换错误字符。在公共 AISHELL 1 数据集和 WenetSpeech 数据集上的实验显示了 UCorrect 对于 ASR 纠错的有效性 1 它实现了显着的 WER 降低，即使没有微调也能达到 6.83，微调后达到 14.29 2 它大大优于流行的 NAR 校正模型

Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification?
Authors Changye Li, Weizhe Xu, Trevor Cohen, Serguei Pakhomov
textbf 目标我们旨在研究自动语音识别 ASR 系统的错误如何影响痴呆症分类的准确性，特别是在 Cookie 盗窃图片描述任务中。

VI-PANN: Harnessing Transfer Learning and Uncertainty-Aware Variational Inference for Improved Generalization in Audio Pattern Recognition
Authors John Fischer, Marko Orescanin, Eric Eckstrand
迁移学习 TL 是一种越来越流行的训练深度学习 DL 模型的方法，它利用在多样化的大规模数据集上训练基础模型所获得的知识，用于可用的领域或任务特定数据较少的下游任务。文献中有丰富的 TL 技术和应用，然而，大部分研究都使用确定性 DL 模型，这些模型通常未经校准，并且缺乏在预测中传达认知模型不确定性度量的能力。与确定性模型不同，贝叶斯深度学习 BDL 模型通常经过良好校准，可以获取预测的认知不确定性，并且能够实现有竞争力的预测性能。在本研究中，我们提出了变分推理预训练音频神经网络 VI PANN。 VI PANN 是流行的 ResNet 54 架构的变分推理变体，它在大规模音频事件检测数据集 AudioSet 上进行了预训练。当使用 ESC 50、UrbanSound8K 和 DCASE2013 数据集将知识从 VI PANN 转移到其他下游声学分类任务时，我们评估了由此产生的不确定性的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com