[论文阅读]FINE-TUNE THE PRETRAINED ATST MODEL FOR SOUND EVENT DETECTION

摘要
本研究提出了一种微调预训练模型ATST(音频师生转换模型)的方法,用于声音事件检测(SED)。通过引入ATST-Frame模型,该方法在DCASE挑战任务4数据集上取得了新的SOTA结果,有效解决了预训练模型在声音事件检测中过拟合的问题。

主要内容
1.背景介绍

  • 声音事件检测(SED)旨在检测音频流中的声音事件并标注其发生时间。
  • 由于数据标注成本高,SED系统常面临数据不足的问题。
  • 现有的SED系统引入了自监督学习(SelfSL)模型以缓解这一问题,但大多数系统将预训练模型视为冻结的特征提取器,微调预训练模型的研究较少。

2.研究目标
研究和提出一种微调预训练模型的方法,用于提高SED性能。
3.方法介绍

  • 基线系统:DCASE2023挑战任务4的基线系统采用了预训练的BEATs模型与CRNN(卷积循环神经网络)结合,提供了全局频谱特征。
  • 新模型:提出了ATST-Frame模型,专为学习音频信号的帧级表示设计,并在多个下游任务中获得了SOTA性能。
  • 微调策略:提出了一种两阶段的微调方法:
    第一阶段:冻结ATST-Frame模型,训练CRNN。
    第二阶段:联合微调ATST-Frame和CRNN,主要依赖无监督损失以避免过拟合。

4.实验结果

  • 数据集:使用DESED数据集进行实验,包含弱标注、强标注和未标注数据。
  • 结果比较:提出的ATST-SED模型在DCASE2023挑战任务4数据集上取得了新的SOTA结果,超过了现有的SED系统。
  • 消融研究:各个模块对模型性能均有积极影响,且相互兼容。 结论

提出的方法显著提高了SED性能,并可能适用于其他预训练模型,形成一种新的自监督学习模型训练范式。

5.个人理解

  • 参考基线系统:作者参考了DCASE2023挑战任务4的基线系统,该系统使用了预训练的BEATs模型与CRNN结合,用于声音事件检测(SED)。基线系统中的预训练模型(BEATs)作为特征提取器使用,在SED任务中提供了全局频谱特征。
  • 提出新模型ATST-SED:作者提出了一种新的自监督学习(SelfSL)模型,名为ATST-Frame,并将其应用于SED系统,构建了ATST-SED模型。与BEATs相比,ATST-Frame在帧级表示上具有更高的时间分辨率和更好的性能。
  • 从下表中可以看出微调的提升效果更显著。同时也可以看出使用额外的数据也有一定的提升,但主要的贡献还是微调策略的影响。
    在这里插入图片描述
    下表可以看出微调策略对效果的影响。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/704106.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Keil手动安装编译器V5版本

V5编译器下载:免积分下载 新版的keil不会自动帮你安装V5版本的编译器,但是很多教程很多比赛所用单片机都是V5的编译器,所以用来开以前的或者开源的很多东西编译直接一大堆报错。 吐槽说完了接下来教你怎么解决 打开installer(在…

Hive的排序

order by 全局排序,因此只有一个reducer,设置了多个reducer也不起作用.-- 设置reducer的个数为2 set mapred.reduce.tasks2; -- 查询 select * from user_install_status_limit order by uptime limit 10;order by 在hive.mapred.mode strict 模式下,必须指定 limit,否则执行…

SOLIDWORKS 2024云服务新功能

一、简单的分享一下,在线观看,轻松标记 在达索系统SOLIDWORKS 2024云服务中,您只需在达索系统SOLIDWORKS中点击按钮,就可以将当前的设计分享给其他人,无论是客户、供应商还是团队内部成员。共享的用户只要打开浏览器里…

河南广电与LiblibAI签署战略合作协议

5月15日,河南广电科技与LiblibAI战略签约仪式在郑州中原福塔新闻发布厅隆重举行。双方将本着“共商、共享、共建、共赢”原则,基于全面、可持续的战略合作伙伴关系,发挥各自优势,共同聚焦生成式AI领域,围绕内容创作、商…

Math.Round()函数说明

Math.Round()并不是严格意义上的是四舍五入函数。它默认的执行的是“银行家舍入”算法,即四舍六入五取偶。概括为:四舍六入五考虑、五后非零就进一,五后皆零看奇偶,五前为偶应舍去、五前为奇要进一。 当为5时,取离着最…

JAVA云his医院管理系统源码 SaaS模式+融合B/S版电子病历 基于云计算技术开发的云his医院管理系统

JAVA云his医院管理系统源码 SaaS模式融合B/S版电子病历 基于云计算技术开发的云his医院管理系统 定义 美国著名教授Morris.Collen于1988年曾著文为医院信息系统下了如下定义:利用电子计算机和通讯设备,为医院所属各部门提供病人诊疗信息和行政管理信息…

YOLO损失函数——SIoU和Focal Lossr损失函数解析

1. 概述 YOLO(You Only Look Once) 系列模型以其实时目标检测能力而闻名,其有效性在很大程度上归功于其专门设计的损失函数。在本文中,这里将深入探讨YOLO演进中不可或缺的各种YOLO损失函数,并重点介绍它们在PyTorch中…

第83天: 代码审计-PHP 项目RCE 安全调试追踪代码执行命令执行

案例一:CNVD拿1day-RCE命令执行-百家CMS 这里用代码审计系统搜索system,可以利用的是第一种 打开看细节 查找函数引用 查找$_file第一次出现的地方 这个时候就明白了,必须上传文件,然后利用文件名,去执行system命令 …

将PDF转换成电子杂志,轻松打造畅销内容!

在数字化时代,将PDF转换成电子杂志是一种非常受欢迎的内容创作方式。这种方式不仅可以提高内容的传播效果,还可以为创作者带来更多的收益。那么,如何轻松地将PDF转换成电子杂志,打造畅销内容呢? 市面上有许多可以将PDF…

MQTT_介绍_1.1

历史 1999年:MQTT最初由IBM的Andy Stanford-Clark和Cirrus Link的Arlen Nipper开发,用于满足石油和天然气公司在远程地区监控设备的需求。 2006年:IBM发布了MQTT的最初开源实现,但此时MQTT并未获得广泛的关注。 2010年&#xff…

企业计算机服务器中了faust勒索病毒如何处理,faust勒索病毒解密恢复

随着网络技术的不断发展与应用,越来越多的企业利用网络走向了数字化办公模式,网络也极大地方便了企业生产运营,大大提高了企业生产效率,但对于众多企业来说,企业的数据安全一直是大家关心的主要话题,保护好…

虚拟机不同网卡模式的使用

前言 了解虚拟机不同网卡模式,并能正确使用网卡连接模式来处理工作学习上的问题,有时候是非常重要的。也许,你也有过使用虚拟机过程中,在网络上花费不少时间的情况,那么这篇文章可能适合你。 一、区别 如上图&#x…