【AI视野·今日Sound 声学论文速览 第四十七期】Fri, 12 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 12 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Contrastive Loss Based Frame-wise Feature disentanglement for Polyphonic Sound Event Detection
Authors Yadong Guan, Jiqing Han, Hongwei Song, Wenjie Song, Guibin Zheng, Tieran Zheng, Yongjun He
重叠的声音事件在现实环境中普遍存在,但现有的端到端声音事件检测 SED 方法仍然难以有效地检测它们。一个关键原因是这些方法使用共享和纠缠的帧特征来表示重叠事件,这降低了特征辨别力。为了解决这个问题,我们提出了一个解开的特征学习框架来学习类别特定的表示。具体来说,我们使用不同的投影仪来学习每个类别的逐帧特征。为了确保这些特征不包含其他类别的信息,我们最大化同一类别内逐帧特征之间的公共信息,并提出逐帧对比损失。此外,考虑到该方法使用的标记数据有限,我们提出了一种半监督逐帧对比损失,可以利用大量未标记数据来实现特征解缠。

Intuitive Control of Scraping and Rubbing Through Audio-tactile Synthesis
Authors Mitsuko Aramaki PRISM , Corentin Bernard PRISM , Richard Kronland Martinet PRISM , Samuel Poirot PRISM , S lvi Ystad PRISM
合成过程的直观控制是听觉感知和认知领域中持续存在的挑战。之前的声音建模工作与心理物理测试相结合,使我们的团队能够开发出一种合成器,该合成器可以根据声源的语义描述提供对动作和对象的直观控制。在此演示中,我们展示了合成器的增强版本,其中添加了触觉刺激,以增加与模拟对象摩擦和刮擦的真实连续摩擦相互作用的感觉。出于多种原因,这一点很有趣。首先,它能够在存在其他形式的刺激的情况下评估我们的声音模型的真实感。

Self-Attention and Hybrid Features for Replay and Deep-Fake Audio Detection
Authors Lian Huang, Chi Man Pun
由于深度学习的成功应用,音频欺骗检测取得了重大进展。通过语音合成或语音转换的欺骗音频可以通过许多对策很好地检测到。然而,自动说话人验证系统仍然容易受到重放或 Deep Fake 音频等欺骗攻击。 Deep Fake 音频是指使用文本转语音 TTS 和语音转换 VC 算法生成欺骗性话语。在这里,我们提出了一种基于混合特征和自注意力机制的新颖框架。预计可以使用混合特征来获得更多的辨别能力。首先,深度学习特征和梅尔谱图特征将通过两个并行路径卷积神经网络和短时傅里叶变换STFT以及梅尔频率来提取,而不是仅一种类型的常规特征。其次,特征将通过最大池化层连接起来。第三,有一个自我关注机制,用于关注基本元素。最后,构建ResNet和线性层来得到结果。实验结果表明,与传统特征相比,混合特征可以覆盖更多的话语细节。我们在物理访问 PA 场景中实现了 9.67 的最佳等错误率 EER,在 ASVspoof 2021 数据集上的 Deep fake 任务中实现了 8.94 的最佳等错误率 EER。

Neural Ambisonics encoding for compact irregular microphone arrays
Authors Mikko Heikkinen, Archontis Politis, Tuomas Virtanen
麦克风阵列信号的高保真度立体声响编码可以实现各种空间音频应用,例如虚拟现实或远程呈现,但它通常是为均匀间隔的球形麦克风阵列而设计的。本文提出了一种高保真度立体声响复制编码方法,该方法使用深度神经网络 DNN 来估计从麦克风输入到高保真度立体声响复制信号的信号变换。该方法使用由 U Net 结构和可学习预处理组成的 DNN,以及由平均误差、空间相关性和能量保存组件组成的损失函数。该方法在具有四个麦克风的规则和不规则形状的两个麦克风阵列、具有多个源的模拟混响场景上进行了验证。

Localizing Acoustic Energy in Sound Field Synthesis by Directionally Weighted Exterior Radiation Suppression
Authors Yoshihide Tomita, Shoichi Koyama, Hiroshi Saruwatari
提出了一种合成所需声场同时通过方向加权抑制外部辐射功率的方法。在实际情况中,声场合成系统中扬声器的外部辐射可能会产生问题。尽管已经提出了几种抑制外部辐射的方法,但是在所有向外方向上的抑制通常是困难的,特别是当扬声器的数量不够大时。我们提出了方向加权外部辐射表示,通过将其纳入声场合成的优化问题来优先考虑抑制方向。通过使用所提出的表示,由于对外部辐射的宽松约束,可以显着减少优先方向上的外部辐射,同时保持较高的内部合成精度。

Segment Boundary Detection via Class Entropy Measurements in Connectionist Phoneme Recognition
Authors Giampiero Salvi
本文研究了使用联结主义音素识别器输出的类熵来预测语音类之间的时间边界的可能性。基本原理是,熵的值应该在识别网络充分建模的两个片段之间的过渡附近增加,因为它是不确定性的度量。这种方法的优点是它的简单性,因为每个类别的后验概率在联结主义音素识别中都是可用的。熵和基于熵微分的许多度量可以单独使用,也可以组合使用。预测边界的决策方法范围从简单的阈值到基于神经网络的过程。比较不同方法的精度(以参考点 10 或 20 毫秒内预测边界的数量 C 与预测边界总数之间的比率来衡量)和召回率(以 C 和 之间的比率衡量)

HiCMAE: Hierarchical Contrastive Masked Autoencoder for Self-Supervised Audio-Visual Emotion Recognition
Authors Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao
视听情感识别 AVER 近年来因其在创建情感感知智能机器中的关键作用而受到越来越多的关注。此前该领域的工作主要以监督学习范式为主。尽管取得了重大进展,但由于 AVER 长期存在的数据稀缺问题,监督学习正在遇到瓶颈。受自监督学习最新进展的推动,我们提出了分层对比掩模自编码器 HiCMAE,这是一种新颖的自监督框架,利用对大量未标记的视听数据进行大规模自监督预训练来促进 AVER 的进步。继自监督视听表征学习的现有技术之后,HiCMAE 采用两种主要的自监督形式进行预训练,即屏蔽数据建模和对比学习。与只关注顶层表示而忽略中间层的显式指导不同,HiCMAE 开发了一种三管齐下的策略来促进分层视听特征学习并提高学习表示的整体质量。为了验证 HiCMAE 的有效性,我们对涵盖分类和维度 AVER 任务的 9 个数据集进行了广泛的实验。实验结果表明,我们的方法显着优于最先进的监督和自监督视听方法,这表明 HiCMAE 是一种强大的视听情感表示学习器。

UCorrect: An Unsupervised Framework for Automatic Speech Recognition Error Correction
Authors Jiaxin Guo, Minghan Wang, Xiaosong Qiao, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhengzhe Yu, Yinglu Li, Chang Su, Min Zhang, Shimin Tao, Hao Yang
纠错技术已用于细化自动语音识别 ASR 模型的输出句子,并实现较低的单词错误率 WER。以往的工作通常采用端到端模型,对伪配对数据和原始配对数据有很强的依赖性。但当仅对伪配对数据进行预训练时,先前的模型对校正有负面影响。在对原始配对数据进行微调时,源端数据必须由训练有素的 ASR 模型进行转录,这需要大量时间且不通用。在本文中,我们提出了 UCorrect,一种用于 ASR 纠错的无监督检测器生成器选择器框架。 UCorrect 不依赖于前面提到的训练数据。整个过程首先检测字符是否错误,然后生成一些候选字符,最后选择最有把握的字符来替换错误字符。在公共 AISHELL 1 数据集和 WenetSpeech 数据集上的实验显示了 UCorrect 对于 ASR 纠错的有效性 1 它实现了显着的 WER 降低,即使没有微调也能达到 6.83,微调后达到 14.29 2 它大大优于流行的 NAR 校正模型

Useful Blunders: Can Automated Speech Recognition Errors Improve Downstream Dementia Classification?
Authors Changye Li, Weizhe Xu, Trevor Cohen, Serguei Pakhomov
textbf 目标我们旨在研究自动语音识别 ASR 系统的错误如何影响痴呆症分类的准确性,特别是在 Cookie 盗窃图片描述任务中。

VI-PANN: Harnessing Transfer Learning and Uncertainty-Aware Variational Inference for Improved Generalization in Audio Pattern Recognition
Authors John Fischer, Marko Orescanin, Eric Eckstrand
迁移学习 TL 是一种越来越流行的训练深度学习 DL 模型的方法,它利用在多样化的大规模数据集上训练基础模型所获得的知识,用于可用的领域或任务特定数据较少的下游任务。文献中有丰富的 TL 技术和应用,然而,大部分研究都使用确定性 DL 模型,这些模型通常未经校准,并且缺乏在预测中传达认知模型不确定性度量的能力。与确定性模型不同,贝叶斯深度学习 BDL 模型通常经过良好校准,可以获取预测的认知不确定性,并且能够实现有竞争力的预测性能。在本研究中,我们提出了变分推理预训练音频神经网络 VI PANN。 VI PANN 是流行的 ResNet 54 架构的变分推理变体,它在大规模音频事件检测数据集 AudioSet 上进行了预训练。当使用 ESC 50、UrbanSound8K 和 DCASE2013 数据集将知识从 VI PANN 转移到其他下游声学分类任务时,我们评估了由此产生的不确定性的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/437832.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八种Flink任务监控告警方式

目录 一、Flink应用分析 1.1 Flink任务生命周期 1.2 Flink应用告警视角分析 二、监控告警方案说明 2.1 监控消息队中间件消费者偏移量 2.2 通过调度系统监控Flink任务运行状态 2.3 引入开源服的SDK工具实现 2.4 调用FlinkRestApi实现任务监控告警 2.5 定时去查询目标库…

Ubuntu 22.04安装Nginx负载均衡

君衍. 一、编译安装Nginx二、轮询算法实现负载均衡三、加权轮询算法实现负载均衡四、ip_hash实现负载均衡 一、编译安装Nginx 这里我们先将环境准备好,我使用的是Ubuntu22.04操作系统: 这个是我刚安装好的,所以首先我们进行保存快照防止安装…

实战教学:用Semantic Kernel框架集成腾讯混元大模型应用

导语 | 众所周知,Semantic Kernel 主要支持国外的两款大模型,但这对于开发者而言,显然是不够的,尤其是当我们希望对接国内的大模型时,我们应该怎么做呢?如何用 Semantic Kernel 通过 oneapi 来集成腾讯混元…

如何对Microsoft 365中Loop文档进行权限划分

Microsoft 365中Loop文档的权限划分为两种:第一种是共享创意页面。第二种是共享特定的Loop组件。 共享创意页面。 进入创意页面后,点击右上角的“共享”-“页面链接”。 如上图所示,页面共享分三种类型。以“你选择的人”为例。添加要共享的…

iOS 文件分割保存加密

demo只是验证想法,没有做很多异常处理 默认文件是大于1KB的,对于小于1KB的没有做异常处理demo中文件只能分割成2个,可以做成可配置的N个文件分割拼接还可以使用固定的二进制数据,拼接文件开头或结尾 不论哪种拼法,目的…

防御保护--NAT策略

目录 NAT策略 NAT类型 server-map表 P2P --- peer to peer 网络类型 ​编辑 目标NAT--服务器映射 双向NAT ​编辑 多出口NAT NAT策略 静态NAT --- 一对一 动态NAT --- 多对多 NAPT --- 一对多的NAPT --- easy ip --- 多对多NAPT 服务器映射 源NAT--基于源IP地址进行转…

GIS应用水平考试一级—2009 年度第二次

全国信息化工程师——GIS应用水平考试 2009 年度第二次全国统一考试一级 试卷说明: 1、本试卷共9页,6个大题,满分150 分,150 分钟完卷。 2、考试方式为闭卷考试。 3、将第一、二、三題的答案用铅笔涂写到(NCIE-GIS)答题卡上。 4、将第四、五、六题的答案填写到主观题答题卡上…

《HTML 简易速速上手小册》第1章:HTML 入门(2024 最新版)

文章目录 1.1 HTML 简介与历史(😉🌐👽踏上神奇的网页编程之旅)1.1.1 从过去到现在的华丽蜕变1.1.2 市场需求 —— HTML的黄金时代1.1.3 企业中的实际应用 —— 不只是个网页1.1.4 职业前景 —— 未来属于你 1.2 基本 H…

千川投流怎么涨粉的?巨量千川粉丝是怎么投流的呢?

在当今数字时代,流量已经成为了一个品牌或产品成功与否的关键因素。因此,千川投流作为一种有效的涨粉引流推广方法,已经成为了许多品牌和产品的首选。本文将向您详细介绍千川投流涨粉引流推广方法,帮助您实现粉丝数量的暴涨目标。…

数据可视化工具JSON Crack结合内网穿透实现公网访问

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

Zerosync:构建基于STARK的Bitcoin证明系统

1. 引言 前序博客: BitcoinSTARK: ZeroSync & Khepri Robin Linus、Tino Steffens、Lukas George 等人成立了一个名为 ZeroSync 协会(ZeroSync Association)的瑞士非营利组织,该组织将牵头开发比特币证明系统。ZeroSync 于…

智慧文旅:重塑旅游业的商业模式与未来

随着科技的飞速发展和消费者需求的不断演变,旅游业正经历着前所未有的变革。智慧文旅,作为这场变革的核心驱动力,正在逐步重塑旅游业的商业模式和未来。本文将深入探讨智慧文旅如何改变传统旅游业的格局,并展望其未来的发展趋势。…