Pytorch基本使用—激活函数

✨1 介绍

⛄ 1.1 概念

激活函数是神经网络中的一种数学函数,它被应用于神经元的输出,以决定神经元是否应该被激活并传递信号给下一层。常见的激活函数包括Sigmoid函数、ReLU函数、Tanh函数等

🎄 1.2 性质

激活函数是神经网络中的一种重要组件,它的作用是引入非线性特性,使得神经网络能够学习和表示更加复杂的函数关系。

激活函数具有以下几个性质:

  1. 非线性:激活函数必须是非线性的,这是为了使得神经网络能够学习非线性函数。如果使用线性激活函数,多层神经网络的输出将仍然是线性的,无法表达复杂的非线性关系。
  2. 可微性:激活函数在神经网络的反向传播算法中起到关键作用,因此它必须是可微的。这样才能计算梯度并更新网络参数,实现网络的训练。
  3. 非饱和性:激活函数应该具有非饱和性,即在输入取值范围内,函数值不会饱和或饱和得很快。这样可以避免梯度消失的问题,使得网络能够更好地进行训练。
  4. 输出范围:激活函数的输出范围应该适当,使得神经网络的输出在合理的范围内。例如,对于二分类问题,常用的激活函数是sigmoid函数,其输出范围在0到1之间,可以表示概率值。

⛱️ 1.3 为什么使用激活函数

在深度学习中,神经网络通常由多个层组成,每一层都包含了许多神经元。每个神经元接收来自上一层神经元的输入,并通过激活函数将其转换为输出。起到的作用有三点:

  1. 激活函数可以引入非线性。如果没有激活函数,多层神经网络将只能表示线性关系,无法学习复杂的非线性模式。通过使用激活函数,神经网络能够学习和表示更加复杂的模式,从而提高其表达能力。
  2. 激活韩素可以帮助神经网络进行分类任务,将输入数据映射到不同的类别。
  3. 激活函数还可以帮助神经网络处理输入数据中的噪声和不确定性,增强其鲁棒性和泛化能力。

总之,激活函数在深度学习中的使用是为了引入非线性特性,提高神经网络的表达能力和学习能力。

✨ 2 常见激活函数

常见的激活函数包括Sigmoid函数、ReLU函数、Tanh函数等

🎈2.1 Sigmoid

☃️ 2.1.1 理论

公式:
在这里插入图片描述
(0, 1)之间取值

函数图像:
在这里插入图片描述
但是sigmoid存在下列问题:

  1. 容易出现梯度消失。当输入值非常大或非常小时,sigmoid函数的导数接近于0,这导致在反向传播过程中梯度逐渐消失,使得网络难以训练。
  2. 输出不是以0为中心。sigmoid函数的输出不是以0为中心的,这可能导致神经网络在训练过程中出现偏移问题,使得收敛速度变慢。
  3. 计算量大

🧽 2.1.2 torch.nn.Sigmoid

torch.nn.Sigmoid()

🎃 2.2 ReLU

2.2.1 ⛱️ 原理

公式:
在这里插入图片描述
sigmoid函数在输入值非常大或非常小时,导数接近于0,导致梯度逐渐消失。而ReLU函数在正值部分的导数为1,因此在反向传播过程中可以更好地保持梯度的大小,避免梯度消失问题

函数图像:
在这里插入图片描述
但是仍然存在一些问题

  1. 输出范围是[0,正无穷),存在输出不是以0为中心的问题。
  2. Dead ReLU问题。当输入值小于等于0时,ReLU函数的导数为0,导致神经元无法更新权重,从而导致神经元“死亡”。如果大量神经元处于“死亡”状态,那么整个网络的表达能力将受到限制。
  3. 输出不受限制。ReLU函数的输出范围没有上界,这可能导致某些神经元输出值过大,称为“exploding gradients”问题。这可能会对网络的稳定性和收敛性造成影响。
  4. 不可导性。ReLU函数在输入为0时是不可导的,因为它的导数在0处不存在。这可能导致在某些优化算法中的计算问题,例如梯度下降算法。

🧽 2.2.2 torch.nn.ReLU

torch.nn.ReLU( inplace: bool = False)
  1. inplace:如果inplace=True,ReLU函数将会修改输入张量本身,而不是创建一个新的张量来存储结果(计算ReLU的反向传播时,有时只需根据输出就能够推算出反向传播的梯度)。这意味着原始输入张量的值将被覆盖,这种原地操作可以节省内存,特别是当处理大型张量时,但是只有少数的autograd操作支持inplace操作,除非明确地知道自己在做什么,否则不要使用inplace操作。

🌊 2.3 Tanh

🎄 2.3.1 理论

公式:
在这里插入图片描述
输出范围是(-1, 1)
函数图像:
在这里插入图片描述
存在的一些问题:

  1. 梯度消失。当输入值非常大或非常小的时候,Tanh函数的导数会接近于零,导致梯度消失的问题。这可能会导致训练过程中的梯度更新变得非常缓慢,甚至无法收敛到最优解。(与Sigmoid相同)
  2. 输出范围限制。Tanh函数的输出范围被限制在-1和1之间,这可能导致某些情况下的信息损失。例如,在某些任务中,输出值需要超过这个范围才能正确表示。

🧽 2.3.2 Torch.nn.Tanh

torch.nn.ReLU()

✨ 3 扩展

为了解决上面三个激活函数的问题,一些改进的激活函数被提出,例如ReLU和Leaky ReLU。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/18848.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RFID系统的部署流程和关键环节

RFID系统的部署与集成对于实现高效的物流管理、提升运营效益和实现自动化过程至关重要。本文将为您解释RFID系统的部署流程和关键环节,并探讨RFID系统与现有IT基础设施的集成方式。我们还将提供RFID系统部署和集成中常见问题的解决方案,帮助您制定RFID系…

ELK日志分析系统

目录 开始 第一台安装elasticsearch-head插件 第一台node1安装logstash 配置收集系统日志 第一台 安装kibana第一台 第三台 简述: 日志分析是运维工程师解决系统故障,发现问题的主要手段。日志主要包括系统日志、应用程序日志和安全日志。系统运…

cesium 实现多颗卫星与多颗地面站雷达通信效果

最主要的部分是计算空间内两点之间的距离以及卫星对地点是否在雷达扫描范围内 先看效果 1.计算空间内两点之间的距离 //计算距离 function distance(point1, point2) {var point1cartographic = Cesium.Cartographic.fromCartesian(point1);var</

基于STM32智能窗帘控制系统仿真设计(含源程序+proteus仿真+讲解视频)

# 基于STM32智能窗帘设计&#xff08;含源程序proteus仿真&#xff09; 仿真&#xff1a;proteus8.11 程序编译器&#xff1a;keil 5 编程语言&#xff1a;C语言 编号C0007 资料下载链接 讲解视频 基于STM32的简易智能窗帘控制系统仿真设计 功能说明&#xff1a; 实现功能&a…

Kubernetes:快速入门指南

原文作者&#xff1a;NGINX 原文链接&#xff1a;Kubernetes&#xff1a;快速入门指南 转载来源&#xff1a;NGINX 官方网站 NGINX 唯一中文官方社区 &#xff0c;尽在 nginx.org.cn 什么是 Kubernetes&#xff1f; Kubernetes又称为 k8s&#xff0c;是一个开源平台&#xff…

Java虚拟机(JVM)

Java虚拟机&#xff08;JVM&#xff09; 类加载 类加载 Java类加载的过程可以分为以下几个步骤&#xff1a; 加载&#xff08;Loading&#xff09;&#xff1a;类加载的第一步是将类的字节码文件加载到内存中。 通过类的全名&#xff0c;全限定名&#xff08;包括包名和类名&…

【STM32MP135】移除stm32mp135d-atk-u-boot.dtsi设备树config节点,否则会进入fastboot下载模式

文件路径&#xff1a;u-boot-stm32mp-v2021.10-stm32mp1-r1/arch/arm/dts/stm32mp135d-atk-u-boot.dtsi

flutter开发实战-Theme主题切换

flutter开发实战-Theme主题切换 之前做的应用中有用到Theme主题切换&#xff0c;一直没有整理&#xff0c;这里整理一下。 使用的是Android studio 一、效果图 二、创建ThemeModel // 提供五套可选主题色 const _themes <MaterialColor>[Colors.blue,Colors.cyan,Co…

PWM 输出实验(stm32)

目录 PWM的代码pwm.cpwm.h main.c 说明&#xff1a;以下内容参考正点原子的资料 PWM的代码 pwm.c //TIM3 PWM部分初始化 //PWM输出初始化 //arr&#xff1a;自动重装值 //psc&#xff1a;时钟预分频数 void TIM3_PWM_Init(u16 arr,u16 psc) { GPIO_InitTypeDef GPIO_InitSt…

C语言进阶之字符串函数和内存函数的介绍及部分函数的模拟实现

字符串函数和内存函数 1.字符串函数介绍1.1 strlen1.2 strcpy1.3 strcat1.4 strcmp1.5 strncpy1.6 strncat1.7 strncpy1.8 strstr1.9 strtok1.10 strerror1.11 字符分类函数 2.内存函数2.1 memcpy2.2 memmove2.3 memcmp 3.函数的模拟实现3.1 模拟实现strlen3.2 模拟实现strcpy3…

单片机第一季:零基础4——LED点阵

1&#xff0c;第八章-LED点阵 如何驱动LED点阵&#xff1a; (1)单片机端口直接驱动。要驱动8*8的点阵需要2个IO端口&#xff08;16个IO口&#xff09;、要驱动16*16的点阵需要4个IO端口&#xff08;32个IO口&#xff09;。 (2)使用串转并移位锁存器驱动。要驱动16*16点阵只需要…

网安学习经历小记

明明自觉学会了不少知识&#xff0c;可真正开始做题时&#xff0c;却还是出现了“一支笔&#xff0c;一双手&#xff0c;一道力扣&#xff08;Leetcode&#xff09;做一宿”的窘境&#xff1f;你是否也有过这样的经历&#xff0c;题型不算很难&#xff0c;看题解也能弄明白&…