机器学习10:正则化-Regularization

目录

1.什么是正则化?

2.简化正则化:Lambda

3.两个练习

3.1 问题一

3.2 问题二

4.参考文献


1.什么是正则化?

考虑以下泛化曲线,它显示了训练集和验证集相对于训练迭代次数的损失。

图 1. 训练集和验证集的损失

图 1 显示了一个模型,其中训练损失逐渐减少,但验证损失最终上升。换句话说,这条泛化曲线表明模型对训练集中的数据过度拟合。在实践中,通常可以通过惩罚复杂模型来防止过度拟合,这一原则称为正则化(Regularization。简言之,训练模型不是简单地以最小化损失为目标(经验风险最小化):

\text{minimize(Loss(Data|Model))}

我们现在将【损失+复杂性】最小化,这称为结构风险最小化

\text{minimize(Loss(Data|Model) + complexity(Model))}

我们的训练优化算法现在是两项的函数:损失项(衡量模型对数据的拟合程度)和正则化项(衡量模型复杂性)。在初级阶段,我们主要关注两种常见(且有些相关)的模型复杂性评估方法:

  • 模型复杂性是模型中所有特征权重的函数
  • 将模型复杂性作为具有非零权重的特征总数的函数 

如果模型复杂度是权重的函数,则绝对值高的特征权重比绝对值低的特征权重更复杂。我们可以使用 L_{2} 正则化 公式来量化复杂性,该公式将正则化项定义为所有特征权重的平方和:

L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}

在这个公式中,接近于零的权重对模型复杂性影响很小,而异常值权重可能会产生巨大的影响。例如,具有以下权重的线性模型:

\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}

L_{2} 正则化项为 26.915:

w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2
= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2
= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625
= 26.915

w_{3}(上面粗体显示)的平方值为 25,几乎贡献了所有的复杂性。所有其他五个权重的平方和仅向 L_{2} 正则化项添加 1.915。

2.简化正则化:Lambda

模型开发人员通过将正则化项的值乘以称为 lambda 的标量(也称为 正则化率)来调整正则化项的整体影响。也就是说,模型开发人员的目标是执行以下操作:

\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}
执行 L_{2} 正则化对模型有以下影响:
  • 鼓励权重值接近 0(但不完全是 0)
  • 鼓励权重均值接近 0,呈正态(钟形或高斯)分布。

增加 lambda 值会增强正则化效果。例如,高 lambda 值的权重直方图可能如图 2 所示。

图 2 权重直方图

降低 lambda 值往往会产生更平坦的直方图,如图 3 所示。

图 3 较低 lambda 值生成的权重直方图

选择 lambda 值时,目标是在简单性和训练数据拟合之间取得适当的平衡:

  • 如果 lambda 值太高,虽然模型会很简单,但会面临数据【拟合不足的风险。最终模型无法充分刻画训练数据,无法做出有用的预测。

  • 如果 lambda 值太低,模型将会更加复杂,并且将面临数据【过度拟合的风险模型会将训练数据的特殊性也学习到,从而导致泛化能力变差。

注意:将 lambda 设置为零会完全消除正则化。在这种情况下,训练只专注于最小化损失,这会带来最高的过度拟合风险。

理想的 lambda 值生成的模型可以很好地泛化(推广)到新的、以前未见过的数据。不幸的是,理想的 lambda 值取决于数据,因此需要进行一些调整。

3.两个练习

3.1 问题一

想象一个具有 100 个输入特征的线性模型:
  • 10 条信息量很大。
  • 90 是非信息性的。
  • 假设所有特征的值都在 -1 到 1 之间。以下哪些陈述是正确的?
A:L_{2} 正则化将鼓励大多数非信息权重恰好为 0.0。
B:L_{2} 正则化可能会导致模型为一些非信息性特征学习适当的权重。
C:L_{2} 正则化将促使许多非信息权重接近(但不完全)0.0。
答案:B,C。
其中 ,B:当非信息性特征恰好与标签相关时,就会发生这种情况。在这种情况下,模型错误地为这些非信息性特征提供了一些本应属于信息性特征的“功劳”。

3.2 问题二

想象一个具有两个强相关特征的线性模型;也就是说,这两个特征几乎是彼此相同的副本,但其中一个特征包含少量随机噪声。如果我们用 L_{2}  正则化训练这个模型,这两个特征的权重会发生什么变化?
A:一个特征的权重很大;另一个的权重几乎为0.0。
B:两个特征的权重大致相等且适中。
C: 一个特征的权重很大;另一个的权重 恰好 为0.0。
答案:B

4.参考文献

链接-简化正则化:Lambda  |  Machine Learning  |  Google for Developers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/5056.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【高可用架构】聊聊故障和高可用架构设计

在架构设计中,高性能、高可用、可拓展以及安全等等有多种维度去判断架构的设计纬度,但是一般来说我们需要考虑具体的业务场景,去判断采用那种合适的架构方案,但是对于大多数的设计来说,都需要满足高性能、高可用。所以…

1752_使用Perl实现目录遍历

全部学习汇总: GreyZhang/speed_emacs: Try to make a new emacs configuration which is fast even on windows! (github.com) 关于Perl和Python的优劣我不去做什么分析,也不去发表什么深入的见解。我个人的学习过程是先Perl后Python再回到Perl。因为工…

Redis 高可用【主从复制 哨兵 集群】

主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份,以及对于读操作的负载均衡和简单的故障恢复。缺陷:故障恢复无法自动化;写操作无法负载均衡&am…

【深度学习推荐系统 工程篇】二、从TF-Serving看生产环境的模型推理服务

前言 模型训练完成后,到在线部署是其所必须要做的一步,伴随模型结构复杂/算力增加,打造低延时/低资源占用的模型预测服务是模型上线的关键; tensorflow 很早就开源了tf-serving(代码连接:https://github.…

1.1.1 Qt信号槽之connect与disconnect介绍

关于Qt信号槽中connect与disconnect介绍 首先我们要知道,如果想要使用Qt中的信号槽机制, 那么必须继承QObject类,因为QObject类中包含了信号槽的一系列操作,今天我们来讲解的是信号与槽怎么建立连接以及断开连接。 一、connect …

JSP原理以及基本语法

1、JSP原理 什么是JSP? Java Server Pages:Java服务器页面,和Servlet一样是动态Web技术! 和HTML的区别? HTML是静态页面。在JSP页面中可以嵌入Java代码,为用户提供动态的数据。 JSP 和 Servlet 的关系…

前后端分离,通用分页js处理模板

功能 **可实现一个页面多个ajax无刷新分页列表** **可解决页面数量非常多的问题** 效果&#xff1a; 截图&#xff1a; 步骤&#xff1a; 第一步&#xff1a;创建一个index.html引入 <script src"./jquery-3.7.0.js"></script><link rel"st…

华为云GaussDB,能否成为数据库国产化替代的“更优选择”?

没有一个行业比数据库更需要长期主义&#xff0c;而在践行长期主义的道路上&#xff0c;国内数据库厂商中华为是不可忽视的存在。 近日&#xff0c;Gartner Peer Insights《Voice of the Customer for Cloud Database Management Systems&#xff0c;2023》报告发布&#xff0…

JMeter HTTP请求的详细指南,还不知道的快来看

目录 JMeter HTTP请求简介 什么是JMeter HTTP请求&#xff1f; 如何使用JMeter的HTTP请求&#xff1f; JMeter HTTP请求配置 创建JMeter HTTP请求 JMeter HTTP请求实例 结论 JMeter HTTP请求简介 在JMeter中&#xff0c;服务器名称和它的路径对于检查请求是否到达了正确…

10W+前端面试题面试资料八股文

点击下方链接获取全部内容文档题目及其答案: 10W前端面试题&面试资料&八股文题目及其答案 https://m.tb.cn/h.5a7v237?tkQeVPdsoKwr4 CZ3457 部分题目如下&#xff1a; 1. call丶apply丶bind区别及源码实现&#xff08;手写&#xff09; 不同点&#xff1a; call…

(二)线程的六种状态及上下文切换

&#xff08;二&#xff09;线程的六种状态及上下文切换 2.1 操作系统中线程的状态及切换2.2 Java 中线程的六种状态01、NEW&#xff08;线程尚未启动&#xff09;02、RUNNABLE&#xff08;运行中&#xff09;03、BLOCKED&#xff08;阻塞状态&#xff09;04、WAITING&#xff…

Linux--共同访问的公共目录不允许a用户删除b用户目录或文件:粘滞位 -t

情景&#xff1a; ①当多个用户共享同一个目录&#xff0c;需要在该目录下&#xff0c;进行读写、创建文件 ②但是自己只能删除自己的&#xff0c;而不能删除别人的&#xff08;w:可以互删的&#xff0c;但是不满足条件&#xff09; 语法&#xff1a; chmod t 目录名 注意…