【AI视野·今日Sound 声学论文速览 第四十期】Wed, 3 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Wed, 3 Jan 2024
Totally 4 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation
Authors Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
扩散模型和大型语言模型法学硕士的最新进展极大地推动了 AIGC 领域的发展。 Text to Audio TTA 是一个新兴的 AIGC 应用程序,旨在根据自然语言提示生成音频,正在吸引越来越多的关注。然而,现有的 TTA 研究经常在生成质量和文本音频对齐方面遇到困难,尤其是对于复杂的文本输入。从最先进的文本到图像 T2I 扩散模型中汲取灵感,我们引入了 Auffusion,这是一个 TTA 系统,通过有效利用其固有的生成优势和精确的跨模态对齐,将 T2I 模型框架适应 TTA 任务。我们的客观和主观评估表明,Auffusion 超越了之前使用有限数据和计算资源的 TTA 方法。此外,T2I 之前的研究认识到编码器选择对跨模式对齐(例如细粒度细节和对象绑定)的重大影响,而之前的 TTA 工作中缺乏类似的评估。通过全面的消融研究和创新的交叉注意力图可视化,我们为 TTA 中的文本音频对齐提供了富有洞察力的评估。我们的研究结果揭示了 Auffusion 在生成准确匹配文本描述的音频方面的卓越能力,这在几个相关任务中得到了进一步证明,例如音频风格转换、修复和其他操作。

HAAQI-Net: A non-intrusive neural music quality assessment model for hearing aids
Authors Dyah A. M. G. Wisnu, Epri Pratiwi, Stefano Rini, Ryandhimas E. Zezario, Hsin Min Wang, Yu Tsao
本文介绍了HAAQI Net,这是一种专为助听器用户量身定制的用于音乐质量评估的非侵入式深度学习模型。与助听器音频质量指数 HAAQI 等传统方法相比,HAAQI Net 采用带有注意力的双向长短期记忆 BLSTM。它以评估的音乐样本和听力损失模式作为输入,生成预测的 HAAQI 分数。该模型采用来自 Audio Transformers BEAT 的预训练双向编码器表示来进行声学特征提取。将预测分数与真实分数进行比较,HAAQI Net 的纵向一致性相关性 LCC 为 0.9257,斯皮尔曼等级相关系数 SRCC 为 0.9394,均方误差 MSE 为 0.0080。

The role of direct sound spherical harmonics representation in externalization using binaural reproduction
Authors Eran Miller, Boaz Rafaely
直达声中的信息对人类空间声源感知的重要性是一个正在进行的研究课题。直达声和扩散声或混响声之间的分类构成了空间音频领域众多研究的基础。特别地,参数空间音频表示方法使用这种分类并采用信号处理来增强再现时的音频质量。然而,当前的文献没有提供关于在高保真度立体声响复制的背景下理想的直接声音表征对外化的影响的信息。本文旨在评估使用双耳再现时直达声中的空间信息在声场外化中的重要性。这是在球谐函数 SH 域中完成的,其中模拟了高保真度立体声响复制信号中的理想直接声音表示,并在正式的听力测试中评估其感知的外化。

Detecting the presence of sperm whales echolocation clicks in noisy environments
Authors Guy Gubnitsky, Roee Diamant
抹香鲸在水下航行时会发出一系列脉冲般的咔嗒声,称为回声定位咔嗒声。这些咔嗒声的特征是多脉冲结构 MPS,它充当独特的模式。在这项工作中,我们使用 MPS 的稳定性作为检测指标,用于识别和分类噪声环境中点击的存在。为了区分噪声瞬变并处理来自多头抹香鲸的同时发射,我们的方法对 MPS 测量的时间序列进行聚类,同时消除不满足点击间隔、持续时间和频谱限制的潜在点击。因此,我们的方法可以处理高噪声瞬态和低信噪比。我们的检测方法的性能使用三个数据集进行检查,其中包括来自地中海七个月的记录,其中包含手动验证的环境噪声,以及从多米尼加岛收集的几天的手动标记数据,其中包含来自多条抹香鲸的约 40,000 次点击,以及来自巴哈马的数据集,其中包含来自单个抹香鲸的 1,203 个标记点击。与两个基准检测器的结果相比,可以观察到精确度和召回率之间更好的权衡,并且错误检测率显着降低,尤其是在嘈杂的环境中。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/329604.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习笔记——C++一维数组

1,一维数组的定义方式 三种定义方式 1,数据类型 数组名[ 数组长度 ]; 2,数据类型 数组名[ 数组长度 ]{值1,值2,值3 ……};//未说明的元素用0填补 3,数据类型 数组名[ ]{值1&…

短视频矩阵系统源码--源头技术独立自研框架开发(正规代发布)

一、批量剪辑(采用php语言,数学建模) 短视频合成批量剪辑的算法主要有以下几种: 1. 帧间插值算法:通过对多个视频的帧进行插帧处理,从而合成一段平滑的短视频。 2. 特征提取算法:提取多个视频…

链表

目录 单链表 双链表 单链表 题目如下&#xff1a;模拟一个单链表&#xff0c;实现插入删除操作 解题代码 #include <iostream>using namespace std;const int N 100010;// head 表示头结点的下标 // e[i] 表示节点i的值 // ne[i] 表示节点i的next指针是多少 // idx …

【JaveWeb教程】(7)Web前端基础:Vue组件库Element介绍与快速入门程序编写并运行 示例

目录 Element介绍快速入门示例 Element介绍 不知道同学们还否记得我们之前讲解的前端开发模式MVVM&#xff0c;我们之前学习的vue是侧重于VM开发的&#xff0c;主要用于数据绑定到视图的&#xff0c;那么接下来我们学习的ElementUI就是一款侧重于V开发的前端框架&#xff0c;主…

Java 堆的设计,如何用堆进行排序

Java 学习面试指南&#xff1a;https://javaxiaobear.cn 1、堆的定义 堆是计算机科学中一类特殊的数据结构的统称&#xff0c;堆通常可以被看做是一棵完全二叉树的数组对象。 1、堆的特性 它是完全二叉树&#xff0c;除了树的最后一层结点不需要是满的&#xff0c;其它的每一层…

【AI】使用Jan.ai在本地部署大模型开启AI对话(含通过huggingface下载大模型,实现大模型自由)

文章目录 前言一、Jan.ai是什么&#xff1f;二、下载大模型1. 找到大模型文件地址2. 下载大模型3. 修改model.json文件 三、使用Jan调用大模型进行对话总结 前言 2023年是AIGC元年。以后&#xff0c;每个人多少都会接触到GPT带来的变化。别人都在用&#xff0c;我们也不能落下…

【解决】hosts文件无修改权限问题

1. 以管理员身份运行命令提示符&#xff08;cmd&#xff09;&#xff1a; 2. 在cmd中输入notepad进入记事本&#xff1a; 3. 通过记事本打开hosts文件&#xff1a; 4. 修改并保存&#xff1a;

超维空间M1无人机使用说明书——61、ROS无人机yolo识别与投放

引言&#xff1a;使用yolo进行物体识别&#xff0c;根据返回的目标位置信息&#xff0c;控制无人机全向移动&#xff0c;当无人机到达目标物的正上方&#xff0c;满足一定的误差阈值后&#xff0c;ROS发布控制控制将舵机挂载的物体抛下&#xff0c;紧接着无人机前往起飞点上方寻…

Spring Cloud之OpenFeign异常处理

简易原理图 原理基于请求头传递错误消息&#xff0c;利用aop和全局异常拦截机制实现。 服务提供者 远程调用本地方法b&#xff0c;throw异常出来FeignExceptionAspect AOP拦截处理异常到请求头中&#xff0c;继续throwGlobalExceptionHandler处理&#xff0c;返回响应Respons…

相控阵天线阵元波程差相位差计算

如下图所示&#xff0c;O点为相位为0的基准点&#xff0c;P(x,y)点为阵元所在位置&#xff0c;需要计算P点相对于基准点在波束方向上的相位差。OP2为波束方向&#xff0c;OP2与Z轴的角度为Theta&#xff0c;OP2在XOY的投影OP1与X轴的角度为Phi。 计算得到波程差OP2&#xff0c;…

机器学习:贝叶斯估计在新闻分类任务中的应用(实验报告)

文章摘要 随着互联网的普及和发展&#xff0c;大量的新闻信息涌入我们的生活。然而&#xff0c;这些新闻信息的质量参差不齐&#xff0c;有些甚至包含虚假或误导性的内容。因此&#xff0c;对新闻进行有效的分类和筛选&#xff0c;以便用户能够快速获取真实、有价值的信息&…

Java分布式锁理论(redis、zookeeper) 详解

目录 一、分布式锁有哪些应用场景&#xff1f; 二、分布式锁的实现方案 三、zookeeper实现分布式锁 一直不释放锁怎么办&#xff1f; 如何避免分布式锁羊群效应问题&#xff1f; 四、redis实现分布式锁 一、分布式锁有哪些应用场景&#xff1f; 1、定时任务 2、秒杀抢购…