Ablations

news/2024/11/20 17:40:11/文章来源:https://www.cnblogs.com/Gaowaly/p/18558882

消融实验(ablation study)是什么?

太长不看版:

说白了就是设立对照组/控制变量法的意思,通过去除/增加某个模块的作用,来证明该模块的必要性,如果消融实验后得到性能结果大幅变化,说明该模块起到了作用。

 

——————————————————————————

严谨版:

Robert Long对消融研究(或消融实验)定义:通常用于神经网络,尤其是相对复杂的神经网络,如R-CNN。我们的想法是通过删除部分网络并研究网络的性能来了解网络

“消融”的原始含义是手术切除身体组织。

ablation
解释: 通过机械方法切除身体组织,如手术,从身体中去除,尤指器官、异常生长或有害物质。

“消融研究”这一术语的根源于20世纪60年代和70年代的实验心理学领域,其中动物的大脑部分被移除以研究其对其行为的影响。
在机器学习,特别是复杂的深度神经网络的背景下,已经采用“消融研究”来描述去除网络的某些部分的过程,以便更好地理解网络的行为。

自从Keras深度学习框架的主要作者Francois Chollet在2018年6月发布twtter以来,该术语受到了关注:

消融研究对于深度学习研究至关重要。理解系统中的因果关系是产生可靠知识的最直接方式(任何研究的目标)。消融是一种非常省力的方式来研究因果关系。
如果您采用任何复杂的深度学习实验设置,您可能会删除一些模块(或用随机的模块替换一些训练有素的功能)而不会降低性能。消除研究过程中的噪音:进行消融研究。
如果您无法完全理解您的系统?很多活动部件,想确定它的工作原因是否与您的假设密切相关?尝试删除东西。花费至少约10%的实验时间来诚实地反驳你的论文。

 

举个例子会理解直观些:

       Girshick及其同事描述了一个由三个“模块”组成的物体检测系统:第一个使用选择性搜索算法提出图像区域,在该区域内搜索物体。进入一个大的卷积神经网络(有5个卷积层和2个完全连接的层),进行特征提取,然后进入一组支持向量机进行分类。为了更好地理解该系统,作者进行了一项消融研究,其中系统的不同部分被移除 - 例如,移除CNN的一个或两个完全连接的层导致性能损失惊人地少。

这使作者得出结论:

CNN的大部分代表性力量来自其卷积层,而不是来自更大的密集连接层。

是什么

消融实验是一种科学研究方法,用于确定一个条件或参数对结果的影响程度。当研究者提出了一个新的方案或方法时,消融实验通过逐一控制一个条件或参数,来观察结果的变化,以确定哪个条件或参数对结果的影响更大。

举个例子,假设在目标检测系统中,使用了A、B、C三种方法相加取得了不错的效果。但是我们并不知道这个效果是由于A、B还是C起的作用。为了确定哪个方法对结果的影响更大,我们可以保留A、B,移除C进行实验,观察结果的变化。通过这样的消融实验,我们可以最终确定到底是哪个方法对结果的影响更大。

总结来说,消融实验类似于"控制变量法",通过逐一控制条件或参数来观察结果的变化,以确定它们对结果的影响程度。

优势与劣势

消融实验的优点是可以帮助研究人员理解模型的不同组成部分对整体性能的贡献。通过逐步消除模型中的某些组件或功能,研究人员可以评估这些组件或功能对模型性能的影响。这有助于揭示模型的关键组件和关键功能,以及它们在任务中的作用。

消融实验的局限性在于,它可能无法完全反映真实世界的情况。通过消除某些组件或功能,消融实验可能会导致模型在特定任务上的性能下降,但在实际应用中,这些组件或功能可能是必要的。此外,消融实验可能无法考虑到组件之间的相互作用和复杂性,因此结果可能不完全准确。

总的来说,消融实验是一种有用的方法,可以帮助研究人员理解模型的工作原理和性能贡献,但需要谨慎解释和应用其结果

案例

一文搞懂什么是ablation study
Mask-Guided Attention Network for Occluded Pedestrian Detection

总结

消融实验是希望探究某一个单一变量对于系统的影响。针对可以去除的部分/模块/选项,可以采用去除的方式来设计实验;而针对不可以去除的变量/超参数等,可以采用grid search等方法来展示参数对于系统的影响。好的论文离不开详实的消融实验来让读者更好地了解作者的贡献,以及加深对于新提出的模块的作用的理解。总而言之,设计消融实验时,应该注意单尺度叙事原则,即一次只控制一个变量,进而研究该变量对于系统的影响。

Reference:

Girshick, R., Donahue, J., Darrell, T. and Malik, J., 2014. 《Rich feature hierarchies for accurate object detection and semantic segmentation》. In Proceedings of the IEEE conference on computer vision and pattern recognition (580-587页).

消融实验(ablation study)是什么?-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/837427.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

低代码无代码开发工具:TOP10排名

随着企业数字化转型步伐的加快,无代码及低代码开发工具(LCNC)已跃升为构建应用的首选方案。这些工具凭借简化开发流程、降低技术壁垒的优势,赋能企业迅速构建并部署应用,以灵活应对市场的瞬息万变。为何需要低无代码? 在快速迭代的商业环境中,传统的代码开发模式往…

Debian12关闭休眠模式

场景描述: 日常服务器部署中,系统环境如果是Debian12操作系统,那么安装完操作系统后,会默认开启系统自动休眠模式, 需要关闭系统的自动休眠,否则网络状态也会休眠,导致远程连接服务器的时候,没有响应! 临时解决方式: 如果目标服务器在机房或者在旁边,可以移动下该服…

IDM冻结试用期

本文并非原创,详细内容在GitHub上 https://github.com/lstprjct/IDM-Activation-Script/blob/main/README.md https://github.com/Mercury-Z/IDM-Activation-Script-Chinese 我讲讲我的使用过程,现在CSDN上阅读量比较多的帖子都是IDM破解版安装包,但就怕安装包有夹带,而且我…

NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN

NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN 用于 OC-VLN 的 NL-SLAM:用于以对象为中心的 VLN 的基于自然语言的 SLAM 【NL-SLAM for OC-VLN: Natural Language Grounded SLAM for Object-Centric VLN 】 文章链接:[2411.07848] NL-SLAM fo…

高德地图区域掩模设置背景透明

使用高德地图创建区域掩模,参考高德地图api,效果如下:不难发现绘制的地图自带了默认的颜色和背景图,如图:需求为需要透出父元素中的背景图,那么就需要将绘制高德地图节点和canvas的背景去除。 1、可通过直接设置CSS去除类名 amap-container 的背景图; .amap-container {…

MySql Is Null和is not null索引失效的问题

简介mysql的sql查询语句中使用is null、is not null、!=对索引并没有任何影响,并不会因为where条件中使用了is null、is not null、!=这些判断条件导致索引失效而全表扫描。 mysql官方文档也已经明确说明is null并不会影响索引的使用。 事实上,导致索引失效而全表扫描的通常是…

由于目前头像不足

一个人收两个头像咋样

CH592工具更新说明

①首先拔除电脑上的所有串口工具,再插入我们需要烧录程序的串口,确保能找到我们要下载固件的COM口,一般同一个串口工具在同一台电脑上所分配的COM号是唯一的 ②打开工具,点击Search Device,会跳出对应的COM号③搜索到COM号后可以拔掉串口,开始硬件接线,VCC接串口3V3,GN…

批量解除 此文件来自其他计算机,可能被阻止以帮助保护该计算机

下载微软工具 - Streams https://learn.microsoft.com/en-us/sysinternals/downloads/ streams -s -d D:/file留待后查,同时方便他人 联系我:renhanlinbsl@163.com

使用linq查询报错English Message : Join a needs to be the same as OrderBy it

可以使用 .Select 和 .MergeTable() 将多表结果集变成单表:这样问题就可以解决了

【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速?

【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速? 重要性:★★★ 💯 这是我常用的【淘汰9成NLP工程师的常识题】LSTM的前向计算如何进行加速? 重要性:★★★ 💯这是我常用的一个面试题。看似简单的基础题,但在面试中能准确回答的不足10% ,常识题的错误反而会…

【论文阅读笔记】多模态大语言模型必读 —— LLaVA

LLaVA (Large Language and Vision Assistant),proposed by Haotian Liu (UWM), et al.论文地址:https://arxiv.org/abs/2304.08485 代码地址:https://github.com/haotian-liu/LLaVA目录简介Visual Instruction 数据生成视觉指令微调模型架构训练 简介 人类对于世界的认知是…