机器学习10：正则化-Regularization-编程知识

机器学习10：正则化-Regularization

news/2024/9/22 8:30:33/文章来源:https://blog.csdn.net/Jin_Kwok/article/details/131443959

目录

1.什么是正则化？

2.简化正则化：Lambda

3.两个练习

3.1 问题一

3.2 问题二

4.参考文献

1.什么是正则化？

考虑以下泛化曲线，它显示了训练集和验证集相对于训练迭代次数的损失。

图 1. 训练集和验证集的损失

图 1 显示了一个模型，其中训练损失逐渐减少，但验证损失最终上升。换句话说，这条泛化曲线表明模型对训练集中的数据过度拟合。在实践中，通常可以通过惩罚复杂模型来防止过度拟合，这一原则称为正则化（Regularization）。简言之，训练模型不是简单地以最小化损失为目标（经验风险最小化）：

$\text{minimize(Loss(Data|Model))}$

我们现在将【损失+复杂性】最小化，这称为结构风险最小化：

$\text{minimize(Loss(Data|Model) + complexity(Model))}$

我们的训练优化算法现在是两项的函数：损失项（衡量模型对数据的拟合程度）和正则化项（衡量模型复杂性）。在初级阶段，我们主要关注两种常见（且有些相关）的模型复杂性评估方法：

模型复杂性是模型中所有特征权重的函数
将模型复杂性作为具有非零权重的特征总数的函数

如果模型复杂度是权重的函数，则绝对值高的特征权重比绝对值低的特征权重更复杂。我们可以使用 $L_{2}$ 正则化 公式来量化复杂性，该公式将正则化项定义为所有特征权重的平方和：

$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$

在这个公式中，接近于零的权重对模型复杂性影响很小，而异常值权重可能会产生巨大的影响。例如，具有以下权重的线性模型：

$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$

$L_{2}$ 正则化项为 26.915：

$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$

$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$

$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$

$= 26.915$

但 $w_{3}$ （上面粗体显示）的平方值为 25，几乎贡献了所有的复杂性。所有其他五个权重的平方和仅向 $L_{2}$ 正则化项添加 1.915。

2.简化正则化：Lambda

模型开发人员通过将正则化项的值乘以称为 lambda 的标量（也称为 正则化率）来调整正则化项的整体影响。也就是说，模型开发人员的目标是执行以下操作：

$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$

执行 $L_{2}$ 正则化对模型有以下影响：

鼓励权重值接近 0（但不完全是 0）
鼓励权重均值接近 0，呈正态（钟形或高斯）分布。

增加 lambda 值会增强正则化效果。例如，高 lambda 值的权重直方图可能如图 2 所示。

图 2 权重直方图

降低 lambda 值往往会产生更平坦的直方图，如图 3 所示。

图 3 较低 lambda 值生成的权重直方图

选择 lambda 值时，目标是在简单性和训练数据拟合之间取得适当的平衡：

如果 lambda 值太高，虽然模型会很简单，但会面临数据【拟合不足】的风险。最终模型无法充分刻画训练数据，无法做出有用的预测。
如果 lambda 值太低，模型将会更加复杂，并且将面临数据【过度拟合】的风险。模型会将训练数据的特殊性也学习到，从而导致泛化能力变差。

注意：将 lambda 设置为零会完全消除正则化。在这种情况下，训练只专注于最小化损失，这会带来最高的过度拟合风险。

理想的 lambda 值生成的模型可以很好地泛化（推广）到新的、以前未见过的数据。不幸的是，理想的 lambda 值取决于数据，因此需要进行一些调整。

3.两个练习

3.1 问题一

想象一个具有 100 个输入特征的线性模型：

10 条信息量很大。
90 是非信息性的。
假设所有特征的值都在 -1 到 1 之间。以下哪些陈述是正确的？

A： $L_{2}$ 正则化将鼓励大多数非信息权重恰好为 0.0。

B： $L_{2}$ 正则化可能会导致模型为一些非信息性特征学习适当的权重。

C： $L_{2}$ 正则化将促使许多非信息权重接近（但不完全）0.0。

答案：B，C。

其中，B：当非信息性特征恰好与标签相关时，就会发生这种情况。在这种情况下，模型错误地为这些非信息性特征提供了一些本应属于信息性特征的“功劳”。

3.2 问题二

想象一个具有两个强相关特征的线性模型；也就是说，这两个特征几乎是彼此相同的副本，但其中一个特征包含少量随机噪声。如果我们用 $L_{2}$ 正则化训练这个模型，这两个特征的权重会发生什么变化？

A：一个特征的权重很大；另一个的权重几乎为0.0。

B：两个特征的权重大致相等且适中。

C：一个特征的权重很大；另一个的权重恰好为0.0。

答案：B

4.参考文献

链接-简化正则化：Lambda | Machine Learning | Google for Developers

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/5056.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【高可用架构】聊聊故障和高可用架构设计

【高可用架构】聊聊故障和高可用架构设计

在架构设计中，高性能、高可用、可拓展以及安全等等有多种维度去判断架构的设计纬度，但是一般来说我们需要考虑具体的业务场景，去判断采用那种合适的架构方案，但是对于大多数的设计来说，都需要满足高性能、高可用。所以…

阅读更多...

1752_使用Perl实现目录遍历

1752_使用Perl实现目录遍历

全部学习汇总： GreyZhang/speed_emacs: Try to make a new emacs configuration which is fast even on windows! (github.com) 关于Perl和Python的优劣我不去做什么分析，也不去发表什么深入的见解。我个人的学习过程是先Perl后Python再回到Perl。因为工…

阅读更多...

Redis 高可用【主从复制哨兵集群】

Redis 高可用【主从复制哨兵集群】

主从复制：主从复制是高可用Redis的基础，哨兵和集群都是在主从复制基础上实现高可用的。主从复制主要实现了数据的多机备份，以及对于读操作的负载均衡和简单的故障恢复。缺陷：故障恢复无法自动化；写操作无法负载均衡&am…

阅读更多...

【深度学习推荐系统工程篇】二、从TF-Serving看生产环境的模型推理服务

【深度学习推荐系统工程篇】二、从TF-Serving看生产环境的模型推理服务

前言模型训练完成后，到在线部署是其所必须要做的一步，伴随模型结构复杂/算力增加，打造低延时/低资源占用的模型预测服务是模型上线的关键； tensorflow 很早就开源了tf-serving（代码连接：https://github.…

阅读更多...

1.1.1 Qt信号槽之connect与disconnect介绍

1.1.1 Qt信号槽之connect与disconnect介绍

关于Qt信号槽中connect与disconnect介绍首先我们要知道，如果想要使用Qt中的信号槽机制， 那么必须继承QObject类，因为QObject类中包含了信号槽的一系列操作，今天我们来讲解的是信号与槽怎么建立连接以及断开连接。一、connect …

阅读更多...

JSP原理以及基本语法

JSP原理以及基本语法

1、JSP原理什么是JSP？ Java Server Pages：Java服务器页面，和Servlet一样是动态Web技术！ 和HTML的区别？ HTML是静态页面。在JSP页面中可以嵌入Java代码，为用户提供动态的数据。 JSP 和 Servlet 的关系…

阅读更多...

前后端分离，通用分页js处理模板

前后端分离，通用分页js处理模板

功能 **可实现一个页面多个ajax无刷新分页列表** **可解决页面数量非常多的问题** 效果： 截图： 步骤： 第一步：创建一个index.html引入 <script src"./jquery-3.7.0.js"></script><link rel"st…

阅读更多...

华为云GaussDB，能否成为数据库国产化替代的“更优选择”？

华为云GaussDB，能否成为数据库国产化替代的“更优选择”？

没有一个行业比数据库更需要长期主义，而在践行长期主义的道路上，国内数据库厂商中华为是不可忽视的存在。近日，Gartner Peer Insights《Voice of the Customer for Cloud Database Management Systems，2023》报告发布&#xff0…

阅读更多...

JMeter HTTP请求的详细指南，还不知道的快来看

JMeter HTTP请求的详细指南，还不知道的快来看

目录 JMeter HTTP请求简介什么是JMeter HTTP请求？ 如何使用JMeter的HTTP请求？ JMeter HTTP请求配置创建JMeter HTTP请求 JMeter HTTP请求实例结论 JMeter HTTP请求简介在JMeter中，服务器名称和它的路径对于检查请求是否到达了正确…

阅读更多...

10W+前端面试题面试资料八股文

10W+前端面试题面试资料八股文

点击下方链接获取全部内容文档题目及其答案: 10W前端面试题&面试资料&八股文题目及其答案 https://m.tb.cn/h.5a7v237?tkQeVPdsoKwr4 CZ3457 部分题目如下： 1. call丶apply丶bind区别及源码实现（手写） 不同点： call…

阅读更多...

（二）线程的六种状态及上下文切换

（二）线程的六种状态及上下文切换

（二）线程的六种状态及上下文切换 2.1 操作系统中线程的状态及切换2.2 Java 中线程的六种状态01、NEW（线程尚未启动）02、RUNNABLE（运行中）03、BLOCKED（阻塞状态）04、WAITING&#xff…

阅读更多...

Linux--共同访问的公共目录不允许a用户删除b用户目录或文件：粘滞位 -t

Linux--共同访问的公共目录不允许a用户删除b用户目录或文件：粘滞位 -t

情景： ①当多个用户共享同一个目录，需要在该目录下，进行读写、创建文件 ②但是自己只能删除自己的，而不能删除别人的（w:可以互删的，但是不满足条件） 语法： chmod t 目录名注意…

阅读更多...

推荐文章

最新文章