【AI视野·今日Sound 声学论文速览 第三十三期】Wed, 25 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Wed, 25 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

CDSD: Chinese Dysarthria Speech Database
Authors Mengyi Sun, Ming Gao, Xinchen Kang, Shiru Wang, Jun Du, Dengfeng Yao, Su Jing Wang
我们推出中文构音障碍语音数据库 CDSD,作为构音障碍研究的宝贵资源。该数据库包含 24 名构音障碍参与者的语音数据。在这些参与者中,一名参与者额外录制了 10 小时的演讲数据,而每人则录制了 1 小时,最终获得了 34 小时的演讲材料。为了适应不同认知水平的参与者,我们的文本库主要由 AISHELL 1 数据集的内容和中小学生的演讲组成。当参与者阅读这些文本时,他们必须使用移动设备或ZOOM F8n多轨现场录音机来录制他们的演讲。在本文中,我们阐明了数据收集和注释过程,并提出了一种建立构音障碍语音识别基线的方法。此外,我们还使用一位参与者额外 10 小时的语音数据进行了依赖于说话者的构音障碍语音识别实验。我们的研究结果表明,通过广泛的数据驱动模型训练,微调有限数量的特定个体数据在依赖于说话者的构音障碍语音识别中产生了值得称赞的结果。然而,我们观察到不同构音障碍说话者的识别结果存在显着差异。

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models
Authors Florian Schmid, Khaled Koutini, Gerhard Widmer
大规模音频数据集(例如 AudioSet)的引入,为 Transformer 征服音频领域并取代 CNN 成为许多任务的最先进的神经网络架构铺平了道路。音频频谱图转换器非常擅长利用大型数据集,创建强大的预训练模型,当对下游任务进行微调时,这些模型超越了 CNN。然而,与 CNN 相比,当前流行的音频频谱图转换器在计算复杂性方面要求更高。最近,我们已经证明,通过使用 Transformer 进行 CNN 知识蒸馏,高效的 CNN 可以在大型数据集上赶上甚至超越 Transformer。在这项工作中,我们通过引入由动态非线性、动态卷积和注意力机制构成的动态 CNN 块,扩展了这一研究方向并提高了高效 CNN 的容量。我们证明,在大规模 AudioSet 上的音频标记任务中,这些动态 CNN 在性能复杂性权衡和参数效率方面优于传统的高效 CNN。

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features
Authors Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
设备定向语音检测 DDSD 是一种二元分类任务,用于区分针对语音助手的查询与侧面对话或背景语音。最先进的 DDSD 系统使用语言提示,例如声学、文本和/或自动语音识别系统 ASR 功能,将语音分类为设备定向或其他,并且通常必须应对这些模式中的一种或多种在实际部署时不可用的情况世界设定。在本文中,我们研究了 DDSD 系统的融合方案,该方案可以使缺失的模态更加稳健。同时,除了 DDSD 的言语线索外,我们还研究非言语线索的使用,特别是韵律特征。我们提出了不同的方法,将韵律的分数和嵌入与相应的语言线索相结合,发现韵律通过非线性中间融合在给定的固定操作点上将错误接受率 FA 的 DDSD 性能提高了高达 8.5,而我们使用模态

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下,可以使用视频拍摄的环境记录,这可以帮助完成此过程。然而,在视频游戏和动画中,不存在参考音频,需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统,然后将其与音频或文本嵌入结合使用,以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式,我们将完全的创意控制权交给了声音设计师,同时消除了与视频同步的负担。此外,编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多,从而简化了可听化过程。

How Much Context Does My Attention-Based ASR System Need?
Authors Robert Flynn, Anton Ragni
对于语音识别任务,在训练期间使用超过 30 秒的声学上下文并不常见,并且文献中对此进行了研究。在这项工作中,我们研究了缩放用于训练评估基于密集注意力的声学和语言模型的序列长度对语音识别性能的影响。在这些实验中,使用了大约 100,000 个伪标记 Spotify 播客的数据集,并探索了 5 秒到 1 小时的上下文长度。对长格式数据集 Earnings 22 和 Tedlium 的零样本评估表明,使用大约 80 秒的声学环境进行训练有好处,与有限的环境基线相比,相对提高了 14.9。

FOLEY-VAE: Generación de efectos de audio para cine con inteligencia artificial
Authors Mateo C mara, Jos Luis Blanco
在这项研究中,我们提出了一个基于变分自动编码器的界面,该编码器经过各种自然声音的训练,用于创新地创建拟音效果。该模型可以将新的声音特征传输到预先录制的音频或麦克风实时捕获的语音中。此外,它还允许交互修改潜在变量,促进精确和定制的艺术调整。以我们之前在去年同一大会上提出的变分自动编码器研究为起点,我们分析了现有的实现 RAVE 1 。该模型经过专门针对音频效果制作的训练。已成功生成各种音频效果,包括电磁、科幻和水声等随本作品发布的声音。这种创新方法成为西班牙第一部人工智能辅助音效短片的艺术创作基础。

The Mason-Alberta Phonetic Segmenter: A forced alignment system based on deep neural networks and interpolation
Authors Matthew C. Kelley, Scott James Perry, Benjamin V. Tucker
给定正字法转录后,强制对齐系统自动确定语音数据中片段之间的边界。这些工具在语音学中很常见,以方便使用无法手动转录和分段的语音数据。在本文中,我们描述了一种新的基于神经网络的强制对齐系统,Mason Alberta Phonetic Segmenter MAPS。 MAPS 对准器可作为我们对强制对准系统追求的两项可能改进的测试平台。第一个是将强制对齐器中的声学模型视为标记任务,而不是分类任务,其动机是基于语音片段并不是真正离散且通常重叠的共识。第二种是插值技术,使边界比现代强制对准系统中常见的 10 毫秒限制更精确。我们将我们的系统配置与最先进的系统蒙特利尔强制对准器进行比较。与蒙特利尔强制对准器相比,标记方法通常不会产生更好的结果。然而,使用插值技术的系统在测试集上目标 10 毫秒内的边界数量相对于蒙特利尔强制对准器增加了 27.92。我们还反思了强制对齐中声学建模的任务和训练过程,强调这些模型的输出目标如何与语音学家对音素之间相似性的概念不匹配,并且这种张力的协调可能需要重新思考任务和输出目标或语音如何

GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds
Authors Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru
我们提出了一种新的客观清晰度测量 OIM ,称为 Gammachirp 包络相似度指数 GESI ,它可以预测正常听力 NH 听众的模拟听力损失 HL 声音的语音清晰度 SI 。 GESI 是一种侵入式方法,它使用 gammachirp 滤波器组 GCFB、调制滤波器组和扩展余弦相似性度量来计算 SI 度量。 GESI 可以接受参考声音和测试声音的水平不对称性,并反映听力图上显示的 HI 听众的听力水平。 GESI 的一个独特功能是它能够将单个参与者的收听条件纳入 SI 预测中。我们在实验室和众包远程环境中对男性和女性语音进行了四次 SI 实验。然后,我们评估了 GESI 和传统的 OIM、STOI、ESTOI、MBSTOI 和 HASPI,了解它们在使用或不使用模拟 HL 声音的情况下预测平均 SI 值和单个 SI 值的能力。 GESI 在所有评估中均优于其他 OIM。即使使用模拟的 HL 声音,STOI、ESTOI 和 MBSTOI 也根本无法预测 SI。 HASPI 没有预测实验室和远程实验对男性语音和个体 SI 值的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/185902.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

01ctfer 文件上传

01ctfer 文件上传 启动靶场 访问该地址 代码审计 <?php header("Content-Type:text/html; charsetutf-8"); // 每5分钟会清除一次目录下上传的文件 require_once(pclzip.lib.php);if(!$_FILES){echo <!DOCTYPE html> <html lang"zh">…

用归并排序算法merge_sort( )求解 逆序对的数量 降低时间复杂度为 nlogn

题目简述 给定一个序列有n个数&#xff0c;求n个数中逆序对的个数&#xff0c;逆序对的定义&#xff1a;i < j && a[i] > a[j]。 输入格式 第一行包含一个整数n。 第二行包含 n 个整数&#xff08;所有整数均在1~1e9范围内&#xff09;&#xff0c;表示整数数…

提高Producer的发送速度

发送一条消息出去要经过三步&#xff0c;一是客户端发送请求到服务器&#xff0c;二是服务器处理该请求&#xff0c;三是服务器向客户端返回应答&#xff0c;一次消息的发送耗时是上述三个步骤的总和。在一些对速度要求高&#xff0c;但是可靠性要求不高的场景下&#xff0c;比…

跨国企业扎根中国市场,应该选择什么样的云服务?

众所周知&#xff0c;伴随着中国经济的高速发展&#xff0c;越来越多的跨国企业都将目光瞄向了中国市场。 然而&#xff0c;要想扎根中国市场&#xff0c;开展本地业务创新&#xff0c;什么样的云服务商才是这些跨国企业的最佳选择&#xff1f; 跨国企业转型创新的三大趋势 面对…

YOLOv8改进 | ICLR 2022 |ODConv附修改后的C2f、Bottleneck模块代码

论文地址&#xff1a;论文地址点击即可跳转阅读 代码地址&#xff1a;文末提供复制粘贴的代码块 一、本文介绍 这篇文章给大家带来的是发表于2022年ICLR的ODConv(Omni-Dimensional Dynamic Convolution)中文名字全维度动态卷积&#xff0c;该卷积可以即插即用&#xff0c;可…

​软考-高级-系统架构设计师教程(清华第2版)【第10章 软件架构的演化和维护(P345~382)-思维导图】​

软考-高级-系统架构设计师教程&#xff08;清华第2版&#xff09;【第10章 软件架构的演化和维护&#xff08;P345~382&#xff09;-思维导图】 课本里章节里所有蓝色字体的思维导图

muduo源码剖析之TcpServer服务端

简介 TcpServer拥有Acceptor类&#xff0c;新连接到达时new TcpConnection后续客户端和TcpConnection类交互。TcpServer管理连接和启动线程池&#xff0c;用Acceptor接受连接。 服务端封装 - muduo的server端维护了多个tcpconnection 注意TcpServer本身不带Channel&#xff0…

如何实现业务系统的单点退出

当前我国各领域正在加速向数字化、移动化、智能化发展&#xff0c;大力投入信息化建设与数字化转型已成为企业的共识&#xff0c;但对于很多企业而言&#xff0c;组织信息环境庞大复杂&#xff0c;业务场景变化频繁&#xff0c;给身份管理与信息安全管理带来很大挑战。随着信息…

再谈谷歌GMS认证之Android 13

写在前面的话 2023年来到一个新的公司&#xff0c;传说中的做互联网金融即将上市的高大上公司。 入职后才发现就是做pos机设备的一个小厂 哎&#xff0c;什么命啊&#xff01; 工作和手机开发的工作重合度可以达到95%以上&#xff0c;我不想做手机&#xff0c;偏偏又干上…

Python编程技巧 – 使用列表(list)

Python编程技巧 – 使用列表(list) Python Programming Skills – Using a List 在Python编程语言中&#xff0c;我们会用到许多列表&#xff08;List&#xff09;。 一门强大的编程语言会包含列表&#xff08;或者数组&#xff09;的数据结构。列表&#xff08;或数组&#…

荣誉上榜 | DolphinDB 入选2023年浙江省高新技术企业研发中心名单

近日&#xff0c;浙江省科学技术厅组织开展了2023年省高新技术企业研究开发中心认定工作。在各市科技局推荐的基础上&#xff0c;经评审和复核&#xff0c;发布了《2023年浙江省高新技术企业研究开发中心名单》。DolphinDB 成功入选该名单。 省级高新技术企业研发中心的申报及评…

万能在线答题考试小程序源码系统 既能刷题 又能考试 带完整的搭建教程

现如今&#xff0c;线上学习和考试已经成为一种趋势。近年来&#xff0c;移动端的普及以及微信小程序的兴起&#xff0c;使得在线答题考试系统变得更加便捷和高效。今天罗峰就来给大家介绍一款万能在线答题考试小程序源码系统&#xff0c;既能刷题&#xff0c;又能考试&#xf…