06 常用损失函数介绍

news/2025/2/25 18:28:36/文章来源:https://www.cnblogs.com/wangle1006/p/18736969

在前文中我们使用的损失函数都是均方误差(MSE,Mean Squared Error),本篇介绍一些其他的损失函数形式,以及他们的不同用途。

1. 回归任务常用损失函数

1.1 均方误差(MSE, Mean Squared Error)

均方误差(MSE)是回归任务中最常用的损失函数之一,用于衡量模型预测值与真实值之间的平均平方差异。其核心思想是通过平方放大较大误差的影响,从而驱动模型更关注预测偏差较大的样本

其中,\(y_i​\)为真实值, \(\hat{y_​i}​\)为预测值,N为样本数量。

平方项的作用

  • 消除正负符号影响:无论预测值大于还是小于真实值,误差的平方均为正数,避免正负误差相互抵消。
  • 放大较大误差的惩罚:平方操作使大误差的损失呈二次增长,例如误差为 2 时损失为 4,误差为 3 时损失为 9,模型会更关注减少大误差。

函数特性

  • 凸性 MSE 是凸函数,保证梯度下降法能收敛到全局最优解(前提是学习率合理)。
  • 光滑可导 平方函数处处连续可导,适合梯度下降等优化算法。

梯度计算

  • 对预测值的梯度为:

  • 梯度与误差成正比,误差越大,参数更新幅度越大。

计算效率

  • 公式简单,适合大规模数据。

对异常值的敏感度

  • 非鲁棒性 平方操作会显著放大异常值的损失,导致模型过度拟合异常点

适用场景

  • 数据分布相对均匀、异常值较少且需快速收敛的模型训练。

1.2 平均绝对误差(MAE, Mean Absolute Error)

平均绝对误差(Mean Absolute Error, MAE)是回归任务中衡量预测值与真实值偏差的核心指标,其数学表达式为:

其中,\(y_i​\)为真实值, \(\hat{y_​i}​\)为预测值,N为样本数量。

绝对值的作用

  • 消除正负误差抵消:直接取绝对值避免了正负误差相加导致的总误差低估问题(如误差为+1和-1时,未取绝对值则总误差为0,但实际存在偏差)
  • 直观反映误差量级:绝对值保留了误差的实际大小,便于直接理解预测偏差的物理意义(如房价预测中MAE的单位为“美元”)

函数特性:
凸性: MAE是凸函数,保证优化过程中存在全局最优解。
不可导性: 绝对值函数在零点不可导,导致梯度下降法需采用次梯度(如符号函数)或平滑近似(如Huber损失)进行优化。

梯度计算:

  • 非零点梯度为常数±1,导致参数更新步长固定,收敛速度较慢。
  • 对比MSE(梯度与误差成正比),MAE对大误差的惩罚力度较小,优化过程更稳定但可能陷入局部最优

计算效率

  • 时间复杂度低:仅需线性遍历计算绝对值和均值,复杂度为O(n),适用于大规模数据集
  • 硬件友好:无平方运算,内存占用少,适合嵌入式系统或实时预测场景

对异常值的敏感度

  • 低敏感性:MAE对异常值的鲁棒性强于MSE,因误差未被平方放大。例如,若某样本误差为10,MAE贡献为10,而MSE贡献为100 。

适用场景

  • 异常值较多的数据,需直观解释误差的场景,实时性要求高的系统

1.3 Huber Loss

Huber Loss 是一种结合了 均方误差(MSE) 和 平均绝对误差(MAE) 优点的损失函数,由统计学家 Peter Huber 提出,主要用于回归任务。其核心思想是:对小误差使用平方惩罚(类似 MSE),对大误差使用线性惩罚(类似 MAE),从而在异常值鲁棒性和优化效率之间取得平衡。

其中:

  • y 是真实值,y^​ 是模型预测值。
  • δ 是阈值参数,需手动设定(通常取 1.0 或通过数据分布调整)。

函数特性:
这是一个分段函数,当我们将∣y−y^​∣= δ代入这两个式子,可以得出它在∣y−y^​∣= δ时连续且可导。
(1) 对小误差的平方惩罚(MSE 特性)
当预测误差 ∣y−y^​∣≤δ 时,Huber Loss 退化为 均方误差(MSE) 的一半:

(2) 对大误差的线性惩罚(MAE 特性)
当预测误差 ∣y−y^​∣>δ 时,Huber Loss 退化为 线性损失

(3) 平滑过渡的关键设计

  • 阈值 δ:控制从平方损失到线性损失的切换点。
    • δ 越小,Huber Loss 越接近 MSE(对异常值敏感)。
    • δ 越大,Huber Loss 越接近 MAE(对异常值鲁棒)。

梯度计算:
Huber Loss 的梯度计算如下:

  • 小误差时:梯度与误差成正比,类似 MSE,参数更新幅度与误差大小相关。
  • 大误差时:梯度固定为 ±δ,类似 MAE,避免梯度爆炸。

适用场景

  • 异常值较多的回归任务,需要平衡精度与鲁棒性的场景,实时系统或嵌入式设备。

2 分类任务常用损失函数

2.1 交叉熵损失(Cross-Entropy Loss)

交叉熵损失函数(Cross-Entropy Loss)是分类任务中最核心的损失函数之一,用于衡量模型预测概率分布与真实标签分布之间的差异。其核心思想基于信息论中的交叉熵概念,通过最小化两个分布的差异来优化模型参数。

公式(二分类):

多分类扩展(Softmax + Cross-Entropy):

二分类问题中,我们通常用sigmoid函数输出最终结果,其真实值为0或1。从公式中可以看出,当真实值为0时,[ ]内保留了后一项,衡量与0之间的误差;当真实值为1时,[]内保留了前一项,衡量与1之间的误差。

多分类问题中,通常用Softmax函数输出最终结果,而多分类标签通常采用one-hot编码,也就是只有真实分类对应的元素为1,其他为0。由于Softmax函数特性,输出各元素之间是联动的,我们只需关注真实分类所对应的预测误差即可。从公式中可知,如果真实分类为c=3,那么one-hot编码中只有c=3对应的\(y_i\)为1,即\(y_{i,3}=1\),其他的\(y_{i,p}=0\) where p ≠ 3 。那么公式中第二层求和项只剩下c=3这一项。也就是只剩下真是分类所对应的预测误差。

为什么也没有二分类中的 \((1-y_i)log(1-\hat{y_i})\) 这一项了?
因为真实分类下对应的\(y_i\)为1,这一项也为0。

与MSE的对比
下图为真实值y=0时,交叉熵损失和MSE的对比,从图中可以看到,交叉熵损失的误差惩罚更高,而且随着误差增加,其惩罚的增量更多,迫使模型快速修正错误。这有助于快速的收敛。

适用场景
多标签分类(互斥类别)
输出层Softmax激活,计算多分类交叉熵损失,如:MNIST 手写数字识别(每张图片仅属于一个数字类别)。
多标签分类(非互斥类别)
每个类别独立使用 Sigmoid 激活,逐类别计算二分类交叉熵后求和,如:图像中同时包含“猫”和“狗”的情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/889688.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

啦啦啦啦啦啦啦啦啦

啦啦啦 啦啦啦啦啦啦啦啦啦 ABC221G 神秘题,将坐标轴转 \(45\),然后 bitset 优化背包,记录路径把刚刚被更新的找出来,然后 _Find_next,每个点只会记一次。 AGC050a 神秘题,想到 \(\log\),然后发现一下位置 \(x\) 走十次能到的区间是 \([1024x,1024x+1023]\),区间长度够…

破解 vLLM + DeepSeek 规模化部署的“不可能三角”

通过 FC GPU 预留实例的闲置计费功能,企业用户能在充分利用 vLLM 的强大功能的同时找到成本、性能、稳定的最佳平衡点,并保持开发和运维的高效性。无论是将 FC vLLM 函数直接对外提供服务,还是深度集成到现有系统中,或是通过 CAP 还是魔搭来简化部署,都能找到满足您业务需…

条形码编码规则全解析:从黑白条纹到数字世界的转换密码

条形码的编码规则是将字符(数字、字母等)转换为特定黑白条纹或矩阵结构的标准化方法,核心目的是让机器能够快速、准确地识别和解析信息。以下是常见条形码编码规则的简介: 一维条形码编码规则 1. ​基本原理通过不同宽度的黑白条纹​(或空格)组合表示字符。 每个字符对应…

[汽车电子/车联网] CANoe

概述:CANoe CAN 全家桶区别: CANoe vs CanalyzerCANoe和CANalyzer使用方法类似(简直可以说 相同)。 都可用于simulation,区别在于CANalyzer只能模拟单个Node,而CANoe可以同时模拟多个Node。如果入门学习了CANoe,就不用入门学习CANalyzer了。安装指南 安装 CANoeDemo on …

璞华易研PLM荣登软服之家多项榜单,PLM+AI为流程行业提供产品创新引擎

近日,国内知名软件与服务评测平台软服之家发布了多个PLM(Product Lifecycle Management,产品全生命周期管理)榜单,帮助用户了解PLM领域表现卓越的软件产品和服务。在软服之家的多项榜单中,璞华易研PLM凭借其自主研发能力与行业深耕优势,在流程行业、电子信息、装备制造等…

ELK 原理介绍及实践详解

介绍了ELK(Elasticsearch, Logstash, Kibana)在大规模日志管理中的重要性,阐述了ELK解决日志分析的挑战,如日志收集、传输、存储和分析。文章详细讲解了ELK的组成部分,包括Filebeat的工作原理、Logstash的输入、过滤和输出阶段,以及Kibana的分析和可视化功能。此外,还提…

工信部人才交流中心PostgreSQL认证考试 - 聊一下更多精彩

在数字经济高速发展的今天,数据库作为信息基础设施的核心组件,其技术自主性与人才储备已成为国家战略竞争力的关键。工业和信息化部人才交流中心(以下简称“工信人才”)推出PostgreSQL认证考试,不仅是对技术发展趋势的精准响应,更是推动信创产业生态建设、填补数据库人才缺…

单链表与单循环链表的C语言实现

单链表与单循环链表的C语言实现 目录单链表与单循环链表的C语言实现单链表的增删查改单循环链表的增删查改 单链表的增删查改 /*单链表*/#include<stdio.h> #include<stdlib.h>typedef struct Node{int data;struct Node* next; }Node;Node* initList(){Node* node…

可能是全球最快捷的修改hosts文件方式

使用快捷方式一键修改hosts文件。 下面请看VCR:其实关键的命令只有一条:powershell.exe -Command "Start-Process -FilePath notepad.exe -Verb RunAs -ArgumentList "$env:SystemRoot\system32\drivers\etc\hosts""它使用记事本以管理员权限打开位于 C:…

KUKA机器人KR70伺服电机力矩不足维修攻略

库卡机器人作为先进的工业自动化解决方案,广泛应用于各种生产线中。然而,当出现KUKA机械手伺服马达力矩不足干燥的问题时,可能会严重影响其工作效率和性能。 一、库卡机器人电机力矩不足故障的原因 1. 电机老化:随着使用时间的增加,电机内部的零部件可能会出现磨损,导致力…

S2-防护-战士Warrior-团体-大秘境-专精-天赋-配装-宏

S2毕业装--属性 急速>全能>爆击>精通 急速和全能越高越好。爆击和精通随缘。 --团本天赋(更新时间2月5日)--团本天赋代码 CkEAmidFBOBFf5oKuZ7r/WeW7YEDAAAAzMzYmZGMbzsMzMz2mZMMNzgZmBwyADbMzMwDMzDMMAAAAAAgZGAgltNADDsBLLGNmBwsFbYD --大秘天赋(更新时间2月5日)--大…

S2-武器-战士Warrior-团体-大秘境-专精-天赋-配装-宏

S2毕业装--属性 急速>爆击>精通>全能 急速和爆击越高越好。精通随缘。不要全能。 --团本/单体天赋(更新时间2月10日)--团本/单体天赋代码 CcEAmidFBOBFf5oKuZ7r/WeW7AAzYmZMzMzsZZZZmBAAAADmGmZYbGzAzYMzMYmhBGmhBAAAAAAAPwYWmZmBQgxy2ALgBMDTIDwG --大秘/AOE巨神兵天…