Scikit-Learn线性回归(五)

Scikit-Learn线性回归五:岭回归与Lasso回归

    • 1、误差与模型复杂度
    • 2、范数与正则化
      • 2.1、范数
      • 2.2、正则化
    • 3、Scikit-Learn Ridge回归(岭回归)
    • 4、Scikit-Learn Lasso回归



1、误差与模型复杂度


在第二篇文章 Scikit-Learn线性回归(二) 中,我们已经给出了过拟合与模型泛化的概念并使用案例进行了验证

在机器学习中,我们通常会将数据划分为两部分:一部分用来构建模型,然后另一部分用来检验模型的效果。构建模型所用的数据集称为训练集,而验证模型的数据集称为测试集。模型在训练集上的误差称为训练误差(或经验误差);在测试集上的误差称为泛化误差

泛化误差反映了模型对未知数据的预测能力,而我们采用最多的也就是通过泛化误差来评价模型的泛化能力。泛化误差刻画了模型算法的经验风险与期望风险之间的偏差和收敛速度

过拟合是指模型在训练集中表现良好,而在测试集中表现很差,即泛化误差大于经验误差,说明拟合过度,模型泛化能力降低,只能够适用于训练集,通用性不强;欠拟合则指的是模型在训练集中的表现就很差,即经验误差很大

在这里插入图片描述

如图所示,图一表示过拟合,可以看到拟合曲线完美的经过了每一个点,模型非常复杂,这种情况下,经验误差极小,但是预测值的方差(误差平方和)会很大。图二表示欠拟合,此时模型过于简单,在训练集上的误差就很大。图三则表示一个理想的拟合模型

欠拟合出现的原因是模型复杂度太低。可能是回归模型自变量(特征)较少或模型不合适。针对欠拟合,解决方案是增大模型复杂度,可以增加自变量(特征)或改变模型。例如,将一阶多元回归模型升级为多项式回归模型

过拟合出现的原因则是模型复杂度太高或训练集太少。可能是自变量(特征)过多或训练集数据量太少等。针对过拟合,除了增加训练集数据量外,还有多种优化算法可以处理。例如,正则化

一般情况下,误差与模型复杂度之间存在如下关系:

在这里插入图片描述

如上图所示,横坐标表示模型的复杂度,纵坐标表示模型的误差。其中,偏差(误差)表示真实值与预测值之间的差值;方差表示回归系数的方差,即误差平方(损失函数/误差平方和为所有样本的偏差平方之和)

从图中可得,随着模型复杂度的提升,方差会不断增大,偏差会逐渐减小,而泛化误差会受偏差和方差的影响,我们的目标是找到泛化误差的最小值,这可以通过平衡方差与偏差来实现

2、范数与正则化

2.1、范数


范数(Norm)的概念来源于泛函分析与测度理论。其中的定义相当简单明了:范数是具有长度概念的函数,用于衡量一个矢量的大小(测量矢量的测度)

范数是一种距离强化概念,范数通常被用来度量某个向量空间 ∣ ∣ x ∣ ∣ ||x|| ∣∣x∣∣(或矩阵 ∣ ∣ X ∣ ∣ ||X|| ∣∣X∣∣)中的每个向量的长度或大小。范数可以简单的理解为向量的长度,即向量点到坐标零点的距离:
∣ ∣ x i ∣ ∣ 2 = ∣ x i ∣ 2 ||x_i||_2=\sqrt{|x_i|^2} ∣∣xi2=xi2

例如,向量 x x x= ( 3 , − 4 ) (3,-4) (3,4)= [ 3 , − 4 ] T [3,-4]^T [3,4]T的欧式范数 (Euclidean Norm) 为
∣ ∣ x ∣ ∣ 2 = 3 2 + ( − 4 ) 2 = 5 ||x||_2=\sqrt{3^2+(-4)^2}=5 ∣∣x2=32+(4)2 =5

这个范数也被称为L2范数,用于表示向量的长度或大小。L2范数是通常意义上的模(距离)。L2范数的本质是欧式距离,即两个向量在每个点相减后的平方和再开方(其中另一个点为坐标零点)

那么,一个向量空间或矩阵的L2范数(m个样本)可以表示为:
∣ ∣ x ∣ ∣ 2 = ∑ i = 1 m ∣ x i ∣ 2 ||x||_2=\sqrt{{\sum_{i=1}^m}|x_i|^2} ∣∣x2=i=1mxi2

为方便统一,一般的,使用L-P范数表示向量空间或矩阵到零点的P阶闵氏距离(Minkowski Distance):
∣ ∣ x ∣ ∣ P = ( ∑ i = 1 m ∣ x i ∣ P ) 1 P ||x||_P=\left({\sum_{i=1}^m}|x_i|^P\right)^\frac{1}{P} ∣∣xP=(i=1mxiP)P1

范数实际上就是一种用于向量或矩阵距离度量的数学定义。L-P范数的数学含义是计算向量元素绝对值的p次方和的 1 P \frac{1}{P} P1次幂。范数分为向量范数(二维坐标系)和矩阵范数(多维空间),这里只讨论向量范数

根据 P P P的不同,向量范数分为多种:
在这里插入图片描述

上图表示了 P P P从无穷到0变化时三维空间中向量到零点的距离(范数)为1的点构成的图形的变化情况。例如L2范数,即欧氏距离,向量空间中到零点的欧氏距离为1的点构成了一个球面

而二维平面上(以P=1和P=2为例)的向量范数表示的图形如下:

在这里插入图片描述

从图中可以直观的得到,随着P越大,等高线围成的图型越接近正方形(正无穷范数);当P=2时,等高线围成的图型变为圆;随着P越小,等高线会越接近坐标零点(负无穷范数)

对于向量 x x x= ( x 1 ,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/325517.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解内存检测工具:一文解析内存检测工具的全貌与使用技巧

C和C是非常不安全且容易出错的编程语言,Address Sanitizer是由Google开发的一种工具,用于检测内存访问错误,如使用后释放(use-after-free)和内存泄漏。它已集成到GCC版本> 4.8中,可用于C和C代码。Addres…

RabbitMQ快速入门(详细)

RabbitMQ 消息中间件/消息队列 1、消息中间件 1、简介 **消息中间件也可以称消息队列,是指用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通信来进行分布式系统的集成。**通过提供消息传递和消息队列模型,可以在分布式环境…

如何配置 VS Code 实现 git 密码免输入

目录 问题描述尝试过的失败方法问题分析最终采用的解决方案:利用 ssh key 提供密码免输入功能安装 git windows 命令工具在windows本地生成 ssh key将公钥安装到 git 服务器第一种方法第二种方法调试方法 参考资料: 问题描述 在 Windows 上,使用 Visual…

Protobuf 编码结构

编码结构 什么是protobuf protocol buffers 是一种语言无关、平台无关、可扩展的序列化结构数据的方法,可用于数据通信协议和数据存储等,它是 Google 提供的一个具有高效协议数据交换格式工具库,是一种灵活、高效和自动化机制的结构数据序列…

JavaScript 基础学习笔记(四):循环语句、while循环、中止循环、无限循环、for 语句

目录 一、循环语句 1.1 while循环 1.2 中止循环 1.3 无限循环 二、综合案例-ATM存取款机 三、for 语句 一、循环语句 1.1 while循环 while : 在…. 期间, 所以 while循环 就是在满足条件期间,重复执行某些代码。 语法: while (条件表…

Reids原理及简单命令

目录 1.关系数据库与非关系型数据库 关系型数据库 非关系型数据库 关系型数据库和非关系型数据库区别 数据存储方式不同 扩展方式不同 对事务性的支持不同 总结: 2. Redis简介 什么是reids reids优点 reids使用场景: reids快的原因 Redis数…

Java学习,一文掌握Java之SpringBoot框架学习文集(4)

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

L1-085:试试手气

我们知道一个骰子有 6 个面,分别刻了 1 到 6 个点。下面给你 6 个骰子的初始状态,即它们朝上一面的点数,让你一把抓起摇出另一套结果。假设你摇骰子的手段特别精妙,每次摇出的结果都满足以下两个条件: 1、每个骰子摇出…

1.4 Unity协程

一、先说接口 接口是不能实例化的,想实例化接口,只能实例化继承了接口的类。 using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace InterfaceTest {interface IMyInterfa…

C#编程-使用集合

使用集合 您学习了如何使用数组来有效地存储和操作相似类型额数据。但是,以下限制于数组的使用相关联: 您必须在声明时定义数组的大小。您必须编写代码以对数组执行标准操作,如排序。让我们思考一个示例。假设您想要存储在组织工作的五个雇员的姓名。您可以使用以下语句来声…

免费分享一套Springboot+Vue前后端分离的在线教育平台系统,挺漂亮的

大家好,我是java1234_小锋老师,看到一个不错的SpringbootVue前后端分离的在线教育平台管理系统,分享下哈。 项目视频演示 【免费】SpringbootVue在线教育平台系统 Java毕业设计_哔哩哔哩_bilibili【免费】SpringbootVue在线教育平台系统 Ja…

cocos creator 如何绑定参数到编辑器

很多cocos creator同学不知道如何绑定组件属性到编辑器上,今天我们来教大家如何绑定 1: 基本数据属性绑定到编辑器 这个非常简单,模板是属性名字: 默认的值; Is_debug: false, speed: 100, 2: 系统组件类型与节点绑定到编辑器 属性名字: { type: 组件…