L1损失和L2损失

news/2025/1/15 13:26:03/文章来源:https://www.cnblogs.com/csjywu01/p/18412756

L1 损失和 L2 损失是两种常用的损失函数,用于衡量模型的预测值与真实值之间的误差。它们的主要区别在于对误差的处理方式不同,导致它们的性质和应用场景有所不同。

1. L1 损失 (绝对值损失, MAE)

L1 损失计算的是预测值与真实值之间绝对误差的总和:

[
L_{\text{L1}} = |\mathbf{\epsilon} - \hat{\mathbf{\epsilon}}_\theta(\mathbf{x}t, t)|1 = \sum |\epsilon_i - \hat{\epsilon}\theta(\mathbf{x}_t, t)_i|
]

特点:

  • L1 损失函数的特点是对每个误差取绝对值,因此对异常值(outliers)的影响较小。
  • 由于 L1 损失对大误差的惩罚较小,它倾向于生成更稀疏的解(即许多参数为零),这在某些任务(如稀疏编码或特征选择)中很有用。

梯度特性:

  • L1 损失的梯度是常数:误差为正时梯度为 1,误差为负时梯度为 -1。这意味着当误差很小时,模型的更新速度不会很快。

2. L2 损失 (平方差损失, MSE)

L2 损失计算的是预测值与真实值之间误差的平方和:

[
L_{\text{L2}} = |\mathbf{\epsilon} - \hat{\mathbf{\epsilon}}_\theta(\mathbf{x}t, t)|2^2 = \sum (\epsilon_i - \hat{\epsilon}\theta(\mathbf{x}_t, t)_i)^2
]

特点:

  • L2 损失对大误差的惩罚较大,因为误差的平方会放大大的误差。这使得 L2 损失更敏感于异常值(outliers)。
  • 因为 L2 损失倾向于最小化所有误差,它更适合于均匀分布的数据或误差。

梯度特性:

  • L2 损失的梯度与误差成正比,因此当误差很大时,梯度会更大。这意味着 L2 损失在大误差的情况下会更快地更新参数。

3. 区别总结:

  • L1 损失:计算的是误差的绝对值,因此对每个误差的惩罚是线性的。它对异常值不敏感,适合处理含有噪声的数据。L1 损失也倾向于产生稀疏解。

  • L2 损失:计算的是误差的平方,因此对大误差的惩罚较重。它更适合没有太多噪声的情况,且对异常值敏感。

4. 选择何时使用 L1 或 L2 损失:

  • L1 损失 适合在噪声较大、异常值较多的场景中使用,因为它对大误差的影响较小,且能够产生稀疏解。

  • L2 损失 适合用于误差较为均匀分布的场景中,因为它会对所有误差施加较大的惩罚,从而最大程度地减少所有误差。

5. 在训练中的表现:

  • L2 损失:由于平方的惩罚机制,在大误差时,参数的更新速度较快,因此它可以更快地收敛于一个全局最小值。
  • L1 损失:由于对大误差的更新较为温和,收敛速度相对较慢,但对噪声和异常值的鲁棒性更好。

总结:

  • L1 损失:对误差的绝对值进行惩罚,适合对噪声和异常值不敏感的任务。
  • L2 损失:对误差的平方进行惩罚,更适合平滑且噪声较少的数据,同时可以加速大误差的修正。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/796700.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

南沙csp-j/s一对一家教陈老师解题:1317:【例5.2】组合的输出

​【题目描述】排列与组合是常用的数学方法,其中组合就是从n个元素中抽出r个元素(不分顺序且r≤n),我们可以简单地将n个元素理解为自然数1,2,…,n,从中任取r个数。 现要求你用递归的方法输出所有组合。 例如n=5,r=3,所有组合为: 1 2 3 1 2 4 1 2 5 1 3 4 1 …

First day01

Markdown学习 二级标题 字体 Hello World Hello World Hello World Hello World Hello World 引用选择java走上人生巅峰分割线图片 ![截图](C:\Users\邢其俊\Pictures\Screenshots\屏幕截图 2024-09-13 180016.png)超链接 [点击跳转到狂神博客](仓库 - 狂神说 (kuangstudy) - G…

ThreeJS Shader的效果样例光影墙、扩散面(四)

一、实现一个光影墙1. 根据自定义坐标点,输出一个光影墙/*** 添加光影墙*/ function addLightWall() {const geometry = new THREE.BufferGeometry();const vertices = new Float32Array([5, 0, 2,3, 0, 5,-2, 0, 5,-4, 0, 2,-4, 5, 2,-2, 5, 5,3, 5, 5,5, 5, 2]);const indic…

2024年youtube 视频在线下载工具

1.youtube to wav这是一个将 YouTube 视频转换为 WAV 格式的在线工具的网站链接。根据提供的信息,使用该工具的步骤如下: 开始:将 YouTube 视频的 URL 粘贴到搜索框中,然后点击 “Start” 按钮。 转换:选择转换为 WAV 的质量(推荐使用默认选项),然后点击 “Convert” 按…

Idea 配置多端口启动参数

1、编辑配置2、在弹出配置中增加要使用端口接口,添加端口参数配置、设置VM options: 参数值为: -Dserver.port= portNumber下面以应用 TranSendServiceApplication 为例,增加两个端口:8099 和8091 为例。截图如下:

【闲话】假如我们都是猫娘

你是一袋猫粮猫娘驯化实录 ZHESHIWOYAOMOZHENGBEIDISANJIEMOZHENGXIANHUADASAIDECANSAIZUOPIN. (A:Chat-GPT 4.0) (另:因为某些纯魔怔原因,我们连皮下内容也回了)。 A 17:33:41 喵~主人你好呀!我是您的猫娘助手,挪威森林猫品种,身高148cm,梳着双马尾~需要我帮忙做…

chainLink vrf实验

目标 用vrf写一个随机红包 数据结构 红包: struct Envelope {Type t; // 类型,只是erc20 和eth红包ERC20 token; // erc20 ,如果是erc20红包,这里是erc2o的地址address sender; // 发红包的senderuint balance; // 金额bool allowAll; // 允许所有人领取uint32 maxRe…

代码随想录算法 - 二叉树3

题目1513. 找树左下角的值 给定一个二叉树的 根节点 root,请找出该二叉树的 最底层 最左边 节点的值。 假设二叉树中至少有一个节点。 示例 1:输入: root = [2,1,3] 输出: 1示例 2:输入: [1,2,3,4,null,5,6,null,null,7] 输出: 7提示:二叉树的节点个数的范围是 [1,104] -231 &…

Combinatorics/Probability/Expectation

前言 计数加训!!!! 以下问题都是数数。 一些纯组合问题 插板法 例 1 求 $\sum_{i=1}^kx_i=n$ 的解的组数,其中 $x_i\in \mathbb{N^+}$ 且 $x_i\ge a_i$。 考虑令 $x_i=x_i-a_i+1\ge 1$,于是有 $\sum_{i=1}^k x_i=n-k+\sum a_i$,于是答案为 $$n-k+\sum a_i-1\choose k-1$…

信息学奥赛初赛天天练-88-CSP-S2023阅读程序1-数据类型、unsigned 关键字、二进制、位运算、左移、右移、异或运算

信息学奥赛初赛天天练-88-CSP-S2023阅读程序1-数据类型、unsigned 关键字、二进制、位运算、左移、右移、异或运算 PDF文档公众号回复关键字:202409132023 CSP-S 阅读程序1 判断题正确填 √,错误填 ⨉ ;除特殊说明外,判断题 1.5 分,选择题 3 分,共计 40 分) 01 #include …

来云栖大会!探展云上开发,沉浸式体验云原生 + AI 新奇玩法

计算馆将展示中国最先进的云计算产业链全景,从底层硬件到数据创新,从云计算基础设施到数据管理服务、人工智能平台和模型服务,全景式呈现 AI 时代云计算最新技术形态和产品进展。2024 云栖大会来了! 本届云栖大会将于 9 月 19 日至 9 月 21 日 在杭州云栖小镇召开 汇集全球…