激活函数(如ReLU) 的作用是什么

news/2025/3/28 11:11:57/文章来源:https://www.cnblogs.com/yubo-guan/p/18791910

目录
  • 1. 核心作用
    • (1) 引入非线性
    • (2) 增强特征表达能力
  • 2. ReLU的独特优势
    • (1) 缓解梯度消失问题
    • (2) 计算高效
    • (3) 稀疏激活
  • 3. 在活体猪IMF预测中的应用
    • (1) 网络结构中的位置
    • (2) 实际效果
  • 4. ReLU的局限性及改进
    • (1) 神经元死亡(Dead ReLU)
    • (2) 输出非零中心化
  • 5. 与其他激活函数对比
  • 6. 总结


激活函数是神经网络中的核心组件,其作用是为模型引入非线性变换,使网络能够学习复杂的特征和关系。以ReLU(Rectified Linear Unit)为例,以下是其具体作用及原理:


1. 核心作用

(1) 引入非线性

  • 问题:如果没有激活函数,神经网络仅是线性变换的堆叠(无论多少层,最终等效于一个线性模型)。
  • 解决:激活函数(如ReLU)通过非线性映射,使网络可以拟合任意复杂函数(如CT图像中脂肪分布的复杂模式)。
    • 例如:ReLU的函数为 f(x) = max(0, x),在正值区间线性,在负值区间截断,整体非线性。

(2) 增强特征表达能力

  • 卷积层提取的特征(如边缘、纹理)通过ReLU过滤:
    • 保留重要特征(正值部分被激活)。
    • 抑制噪声(负值部分置零,减少干扰)。
  • 例如:在CT图像中,ReLU可能强化脂肪区域的像素响应,弱化无关背景。

2. ReLU的独特优势

(1) 缓解梯度消失问题

  • 传统激活函数(如Sigmoid、Tanh):在输入极大或极小时,梯度接近0,导致深层网络难以训练。
  • ReLU的梯度
    • 正区间梯度恒为1,反向传播时梯度稳定传递。
    • 负区间梯度为0,但实践中稀疏性反而有助于减少过拟合。

(2) 计算高效

  • Sigmoid/Tanh:需计算指数,耗时较高。
  • ReLU:仅需比较和取最大值,速度极快,适合大规模数据(如3D CT影像)。

(3) 稀疏激活

  • 负输入输出0,使得部分神经元被“关闭”,网络更轻量且更具解释性。
  • 例如:在IMF预测中,可能只有特定肋骨切片的神经元被激活,与脂肪分布相关。

3. 在活体猪IMF预测中的应用

(1) 网络结构中的位置

  • 每个3D卷积层后接ReLU:
    Conv3D → BatchNorm → ReLU → MaxPooling
  • 作用流程
    1. 卷积提取局部特征(如脂肪纹理)。
    2. ReLU保留显著特征,抑制无关噪声。
    3. 池化进一步压缩特征维度。

(2) 实际效果

  • 特征选择:ReLU帮助模型聚焦于CT图像中HU值(亨氏单位)较高的区域(如脂肪、骨骼)。
  • 加速收敛:相比Sigmoid,ReLU使训练更快达到稳定状态(论文中RMSE快速下降)。

4. ReLU的局限性及改进

(1) 神经元死亡(Dead ReLU)

  • 问题:若输入持续为负,神经元永久输出0,无法更新权重。
  • 解决
    • Leaky ReLU:负区间引入微小斜率(如0.01x),保留少量梯度。
    • Parametric ReLU (PReLU):斜率作为可学习参数。

(2) 输出非零中心化

  • 问题:ReLU输出均≥0,可能导致梯度更新效率降低。
  • 解决
    • 配合Batch Normalization(如论文中每个Conv后接BN),标准化输入分布。

5. 与其他激活函数对比

激活函数 公式 优点 缺点 适用场景
ReLU max(0, x) 计算快,缓解梯度消失 神经元死亡 深度网络(主流选择)
Sigmoid 1 / (1 + e⁻ˣ) 输出平滑(0~1) 梯度消失,计算慢 二分类输出层
Tanh (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ) 输出零中心化(-1~1) 梯度消失 RNN/LSTM
Leaky ReLU max(αx, x) (α=0.01) 缓解神经元死亡 需调参α 替代ReLU

6. 总结

  • 核心作用:ReLU通过非线性变换,使神经网络能够拟合复杂数据(如CT影像的脂肪分布)。
  • 在IMF预测中的价值
    • 与3D卷积结合,高效提取肋骨区域的空间特征。
    • 加速训练,提升模型对活体猪IMF含量的回归精度。
  • 改进方向:若模型出现神经元死亡,可尝试Leaky ReLU或调整BN层参数。

通过合理使用激活函数,3D CNN能够从CT序列中学习到区分脂肪与非脂肪区域的关键特征,最终实现高精度的无损检测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/905537.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Frp内网穿透搭建教学

📌 FRP - Linux & Win 内网穿透教程 手搓难度 ⭐️⭐️🚀 适用于: 本地服务器、电脑、树莓派、香橙派内网穿透 🛠️ 工具:FRP(fast reverse proxy) 🖥️ 系统:Linux、Windows 📚架构:x86、amd、arm 📝Frp版本:v0.61.1 🎯教程日期:2025/2/12📖 目录…

整车销售管理怎么做?4S店整车销售7大模块!

这篇跟大家聊聊4S店整车销售管理到底该怎么做?干这行七八年了,从一线销售爬到区域总监,这里面的门道我总结成七大模块,全是实战干货,看完直接落地用!下述所示整车管理系统>> https://s.fanruan.com/mx0aj 一、系统底层逻辑:四个核心齿轮咬合 1.库存管理是心脏 每天…

CSS 实现滚动条的隐藏但保留滚动功能

CSS 实现滚动条的隐藏但保留滚动功能CSS 实现滚动条的隐藏但保留滚动功能 有几种方法可以在网页中隐藏滚动条但保留滚动功能,以下是常见的实现方式,使用 CSS:使用 ::-webkit-scrollbar(适用于 Webkit 内核浏览器,如 Chrome、Safari)/* 隐藏滚动条但保留滚动功能 */ body …

cccxm

29593138陈晓明

愚人节恶搞代码:系统错误倒计时与节日彩蛋动画

为你的网页增添趣味性和互动性!通过JavaScript轻松创建一个逼真的“系统错误倒计时”画面,结合动态进度条和节日彩蛋动画,为你的用户带来意想不到的惊喜。无论是愚人节还是特殊节日,这段代码都能为你的网站增添一份独特的幽默感和创意。距离愚人节还有一周时间,在这个充满…

RFDN:用于轻量级图像超分辨率的残差特征蒸馏网络

在本文中,我们提出了一种**特征蒸馏连接(feature distillation connection FDC)**,它在功能上等同于通道分裂操作,同时更加轻量级和灵活。多亏了FDC,我们可以重新思考信息**多蒸馏网络(information multi-distillation network IMDN)**,并提出一个轻量级和准确的SISR模…

AI编程的 9 个大坑

原帖:[X@cj_zZZz](x.com) 我每天使用AI工具编程6-7小时。 在过去12个月里开发了超过36个项目。 事实是:用一个提示"给我构建...应用"是不可能的。 所以,以下是你在使用AI编程时可能犯的所有错误: 1. 没有规划 通过我的规划技巧,我能在几小时内从想法到一个写得很…

从按键到语音:家电设备交互的演进之旅

家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗? #70年代 结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代 随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这…

Docker环境搭建与容器化入门实战——从虚拟机配置到应用部署

作者信息 姓名:林俊祥 专业:云计算技术应用 学号:23593107 技术方向:云平台搭建与部署 一、项目背景 本次实践基于Ubuntu系统,通过虚拟机环境完成Docker的完整部署流程,涵盖: 虚拟机创建与系统安装 SSH远程连接配置 Docker引擎安装与容器管理 应用容器化实战三、关键技术…

Vibe Coding彻底火了,到底什么是氛围编程?它如何改变未来的软件开发?

在过去十年间,低代码/无代码平台和 AI 代码助手持续冲击着软件开发行业。如今,一种被称为 Vibe Coding 的新兴实践突然走红,甚至颠覆了人们对"程序员到底在做什么"的认知。本篇文章将从定义到实践策略、从优势到局限性,全方位探讨 Vibe Coding 给软件开发带来的重…

知识蒸馏实战

蒸馏实战小实验 本实验相关代码已开源至github 失败经历 爱爱医数据蒸馏Qwen2.5-7B 1.用爬虫在爱爱医网站爬取1k条数据。(刚学一点爬虫,不会越过验证码,还是自己一次一次验证😅) 2.数据格式预处理,例如: {"instruction": "你需要基于我提供的患者病历,…