【机器学习与实现】线性回归分析

目录

    • 一、相关和回归的概念
      • (一)变量间的关系
      • (二)Pearson(皮尔逊)相关系数
    • 二、线性回归的概念和方程
      • (一)回归分析概述
      • (二)线性回归方程
    • 三、线性回归模型的损失函数与参数估计
      • (一)正规解方程法(最小二乘法)
      • (二)梯度下降法
    • 四、线性回归的正则化
      • (一)正则化线性回归
      • (二)L2正则化与岭回归
      • (三)L1正则化与Lasso回归
      • (四)比较L1与L2正则化


一、相关和回归的概念

(一)变量间的关系

——函数关系和相关关系

(1)是一一对应的确定关系

(2)变量间关系不能用函数关系精确表达

在这里插入图片描述
1、函数关系的例子

  • 某种商品的销售额 (y) 与销售量 (x) 之间的关系可表示为 y = p x y = p x y=px ( p p p为单价)

2、相关关系的例子

  • 商品的消费量 ( y y y) 与居民收入 ( x x x) 之间的关系
  • 父亲身高 ( y y y) 与子女身高 ( x x x) 之间的关系

3、相关关系的图示

在这里插入图片描述

(二)Pearson(皮尔逊)相关系数

随机变量 X \color{red}X X Y \color{red}Y Y D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x m , y m ) } \color{blue}D=\{ (x_1, y_1) , (x_2, y_2), \cdots, (x_m, y_m) \} D={(x1,y1),(x2,y2),,(xm,ym)}
μ X = 1 m ∑ i = 1 m x i , μ Y = 1 m ∑ i = 1 m y i , \mu_X=\frac{1}{m}\sum_{i=1}^mx_i,\mu_Y=\frac{1}{m}\sum_{i=1}^my_i, μX=m1i=1mxiμY=m1i=1myi σ X = 1 m − 1 ∑ i = 1 m ( x i − μ X ) 2 , σ Y = 1 m − 1 ∑ i = 1 m ( y i − μ Y ) 2 , \sigma_X=\sqrt{\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu_X)^2},\sigma_Y=\sqrt{\frac{1}{m-1}\sum_{i=1}^m(y_i-\mu_Y)^2}, σX=m11i=1m(xiμX)2 σY=m11i=1m(yiμY)2 C o v ( X , Y ) = 1 m − 1 ∑ i = 1 m ( x i − μ X ) ( y i − μ Y ) , Cov(X,Y)=\frac{1}{m-1}\sum_{i=1}^m(x_i-\mu_X)(y_i-\mu_Y), Cov(X,Y)=m11i=1m(xiμX)(yiμY) ρ = C o v ( X , Y ) σ X σ Y \boxed{ρ=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}} ρ=σXσYCov(X,Y)

  • 相关系数 r r r 等于 X X X Y Y Y 的协方差除以它们各自标准差的乘积
  • 相关系数 r r r 的取值 [ − 1 , 1 ] [-1,1] [1,1]
  • 1表示完全正相关,-1表示完全负相关,0表示不相关

二、线性回归的概念和方程

(一)回归分析概述

回归分析指研究一组随机变量 ( X 1 , X 2 , ⋯ , X k ) (X_1, X_2,\cdots, X_k) (X1,X2,,Xk) 和另一组变量 ( Y 1 , Y 2 , ⋯ , Y i ) (Y_1,Y_2,\cdots,Y_i) (Y1,Y2,,Yi) 之间相关关系的统计分析方法。

  • 按自变量:一元回归和多元回归
  • 按因变量:简单回归和多重回归
  • 按函数形式:线性回归和非线性回归

X i X_i Xi自变量 Y i Y_i Yi取连续值的因变量

(二)线性回归方程

1、一元线性回归

一元线性回归由大体上有线性关系的一个自变量和一个因变量组成;模型是 Y = a + b x + ε Y=a+ bx +ε Y=a+bx+ε X X X是自变量, Y Y Y是因变量, ε ε ε是随机误差)。

回归分析的任务就是寻找一条拟合直线,使得所有样本点到该直线的距离之和最小。

在这里插入图片描述
2、多元线性回归

如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
h ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n + ε i h(x)=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n+\varepsilon_i h(x)=θ0+θ1x1+θ2x2++θnxn+εi x 0 = 1 x_0=1 x0=1,则上式可写成 h θ ( x ) = θ T X = X T θ h_\theta(x)=\theta^TX=X^T\theta hθ(x)=θTX=XTθ θ = ( θ 0 θ 1 ⋯ θ n ) , X = ( x 0 x 1 ⋯ x n ) \theta=\left(\begin{matrix}\theta_0\\\theta_1\\\cdots\\\theta_n\end{matrix}\right),X=\left(\begin{matrix}x_0\\x_1\\\cdots\\x_n\end{matrix}\right) θ= θ0θ1θn X= x0x1xn

θ θ θ称为参数向量,也是要求解的一个量(注意:向量默认是列向量

多元线性回归方程的直观解释:

在这里插入图片描述

三、线性回归模型的损失函数与参数估计

线性回归方程参数的求解:
线性回归分析的目标是求出线性回归方程中参数向量 θ θ θ 的值,这有两种方法。
① 正规解方程法(最小二乘法)
② 梯度下降法

(一)正规解方程法(最小二乘法)

1、线性回归模型方程

假设房屋价格与以下因子(自变量或者特征)存在线性关系,求解预测房屋 m m m价格(因变量或者预测量)

面积房间数人口密度房龄价格
70250574.2
602601066.2
11047020117.4
803401584.3
703301074.3
9036010m?

2、将样本代入线性回归方程

f ( X ) f(X) f(X) 为预测值,也写作 y ^ \hat{y} y^ y y y 为实际值。
{ f ( X ) = θ 0 + 70 θ 1 + 2 θ 2 + 50 θ 3 + 5 θ 4 f ( X ) = θ 0 + 60 θ 1 + 2 θ 2 + 60 θ 3 + 10 θ 4 f ( X ) = θ 0 + 110 θ 1 + 4 θ 2 + 70 θ 3 + 20 θ 4 f ( X ) = θ 0 + 80 θ 1 + 3 θ 2 + 40 θ 3 + 15 θ 4 f ( X ) = θ 0 + 70 θ 1 + 3 θ 2 + 30 θ 3 + 10 θ 4 \left\{ \begin{array}{l} f(X)=\theta_0+70\theta_1+2\theta_2+50\theta_3+5\theta_4 \\[1ex] f(X)=\theta_0+60\theta_1+2\theta_2+60\theta_3+10\theta_4 \\[1ex] f(X)=\theta_0+110\theta_1+4\theta_2+70\theta_3+20\theta_4 \\[1ex] f(X)=\theta_0+80\theta_1+3\theta_2+40\theta_3+15\theta_4 \\[1ex] f(X)=\theta_0+70\theta_1+3\theta_2+30\theta_3+10\theta_4 \end{array} \right. f(X)=θ0+70θ1+2θ2+50θ3+5θ4f(X)=θ0+60θ1+2θ2+60θ3+10θ4f(X)=θ0+110θ1+4θ2+70θ3+20θ4f(X)=θ0+80θ1+3θ2+40θ3+15θ4f(X)=θ0+70θ1+3θ2+30θ3+10θ4 X b ⋅ θ = [ 1 X 1 ( 1 ) X 2 ( 1 ) ⋯ X n ( 1 ) 1 X 1 ( 2 ) X 2 ( 2 ) ⋯ X n ( 2 ) ⋯ ⋯ 1 X 1 ( m ) X 2 ( m ) ⋯ X n ( m ) ] ⋅ [ θ 0 θ 1 θ 2 ⋯ θ n ] = f ( X ) X_b\cdot\theta=\left[ \begin{matrix} 1 & X_1^{(1)} & X_2^{(1)} & \cdots & X_n^{(1)} \\[1ex] 1 & X_1^{(2)} & X_2^{(2)} & \cdots & X_n^{(2)} \\[1ex] \cdots & & & & \cdots \\[1ex] 1 & X_1^{(m)} & X_2^{(m)} & \cdots & X_n^{(m)} \end{matrix} \right] \cdot\left[ \begin{matrix} \theta_0 \\[1ex] \theta_1 \\[1ex] \theta_2 \\[1ex] \cdots \\[1ex] \theta_n \end{matrix} \right] =f(X) Xbθ= 111X1(1)X1(2)X1(m)X2(1)X2(2)X2(m)Xn(1)Xn(2)Xn(m) θ0θ1θ2θn =f(X)

  • m m m 个样本(上标)
  • n n n 个特征(下标)
  • X X X ( m , n + 1 ) (m,n+1) (m,n+1) 特征矩阵
  • θ \theta θ:权重向量/系数向量

3、线性回归的损失函数

在这里插入图片描述

4、线性回归参数估计

目标:找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,,θn,使得平方损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2 i=1m(y(i)y^(i))2 尽可能小。 其中 y ^ ( i ) = θ 0 + θ 1 X 1 ( i ) + θ 2 X 2 ( i ) + . . . + θ n X n ( i ) \hat{y}^{(i)}=\theta_0+\theta_1X_1^{(i)}+\theta_2X_2^{(i)}+...+\theta_nX_n^{(i)} y^(i)=θ0+θ1X1(i)+θ2X2(i)+...+θnXn(i)

5、补充:均方误差(MSE)函数

在线性回归中使用的损失函数是“平方损失函数” (quadratic loss function) L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X))=(Y-f(X))^2 L(Y,f(X))=(Yf(X))2 E ( ω , b ) = ∑ i = 1 m ( y i − ω x i − b ) 2 E_{(\omega,b)}=\sum_{i=1}^m(y_i-\omega x_i-b)^2 E(ω,b)=i=1m(yiωxib)2

但是在计算的时候,常常多出一个2,并且表示成平均损失的形式:
L o s s ( ω , b ) = E ( ω , b ) = 1 2 m ∑ i = 1 m ( f ( x i ) − y i ) 2 = 1 2 m ∑ i = 1 m ( y i − ω x i − b ) 2 \begin{aligned} Loss(\omega,b)=E_{(\omega,b)}&=\frac{1}{2m}\sum_{i=1}^m(f(x_i)-y_i)^2\\ &=\frac{1}{2m}\sum_{i=1}^m(y_i-\omega x_i-b)^2 \end{aligned} Loss(ω,b)=E(ω,b)=2m1i=1m(f(xi)yi)2=2m1i=1m(yiωxib)2

平方损失函数下,样本数越多误差越大;相比于前面的平方损失函数,均方误差函数(mean-square error,MSE)既克服了样本数量的影响,同时它也仅仅是在平方损失函数前面增加了一个常量系数( 1 2 m \frac{1}{2m} 2m1),因此后面通过平方损失函数最小化求解参数的计算过程对它同样适用。

6、损失函数的向量化表示

损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i=1m(y(i)y^(i))2 y = ( y ( 1 ) ⋯ y ( m ) ) y=\left(\begin{matrix}y^{(1)}\\\cdots\\y^{(m)}\end{matrix}\right) y= y(1)y(m) y ^ = X b ⋅ θ = ( y ^ ( 1 ) ⋯ y ^ ( m ) ) \hat{y}=X_b\cdot\theta=\left(\begin{matrix}\hat{y}^{(1)}\\\cdots\\\hat{y}^{(m)}\end{matrix}\right) y^=Xbθ= y^(1)y^(m)

根据 ∑ p i 2 = P T P \begin{aligned}\sum p_i^2=P^TP\end{aligned} pi2=PTP,进行向量化: ( y − X b ⋅ θ ) T ( y − X b ⋅ θ ) (y-X_b\cdot\theta)^T(y-X_b\cdot\theta) (yXbθ)T(yXbθ) J ( θ ) = θ T X b T X b θ − 2 ( X b θ ) T y + y T y J(\theta)=\boxed{\theta^TX_b^TX_b\theta}-\boxed{2(X_b\theta)^Ty}+y^Ty J(θ)=θTXbTXbθ2(Xbθ)Ty+yTy

θ \theta θ 求偏导,并令其等于0: 2 X b T X b θ − 2 X T y = 0 2X_b^TX_b\theta-2X^Ty=0 2XbTXbθ2XTy=0 X b T X b θ = X b T y X_b^TX_b\theta=X_b^Ty XbTXbθ=XbTy θ = ( X b T X b ) − 1 X b T y \theta=(X_b^TX_b)^{-1}X_b^Ty θ=(XbTXb)1XbTy

参数 θ θ θ 的推导过程:

X b T X b X_b^TX_b XbTXb 可逆时,上述解称为线性回归权系数向量的最小二乘解(基于均分误差/平方误差最小化)。上面两个黑色框的求导结果是根据下面两条函数对向量和矩阵的求导规则:

  • A A A 是实对称矩阵时,有 ∂ ( a T A x ) ∂ x = 2 A x \begin{aligned}\frac{\partial (a^TAx)}{\partial x}=2Ax\end{aligned} x(aTAx)=2Ax
  • ∂ ( a T x ) ∂ x = ∂ ( x T a ) ∂ x = a \begin{aligned}\frac{\partial (a^Tx)}{\partial x}=\frac{\partial (x^Ta)}{\partial x}=a\end{aligned} x(aTx)=x(xTa)=a

7、最小二乘解的缺点

  • X b T X b X_b^TX_b XbTXb 不可逆时无法求解;
  • 即使可逆,逆矩阵求解可能计算很复杂;
  • 求得的权系数向量 θ \theta θ 可能不稳定,即样本数据的微小变化可能导致 θ \theta θ 的巨大变化,从而使得回归模型不稳定,缺乏泛化能力。

(二)梯度下降法

1、基本概念

梯度下降(Gradient Descent)法适合特征个数多、样本数多、其他方法内存无法满足要求的情况下使用

梯度下降算法是一种求局部最优解的数值计算方法,该方法的整体思路是通过迭代来逐渐调整参数使得损失函数达到最小值

2、基本思想

目标:找到 θ 0 , θ 1 , θ 2 , ⋯ , θ n \theta_0,\theta_1,\theta_2,\cdots,\theta_n θ0,θ1,θ2,,θn,使得损失函数 ∑ i = 1 m ( y ( i ) − y ^ ( i ) ) 2 \begin{aligned}\sum_{i=1}^m(y^{(i)}-\hat{y}^{(i)})^2\end{aligned} i=1m(y(i)y^(i))2 尽可能小。

在这里插入图片描述
比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。 这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

在这里插入图片描述
3、梯度下降法举例

梯度下降法举例(1):
在这里插入图片描述

损失函数: J ( θ ) = θ 2 J(\theta)=\theta^2 J(θ)=θ2

θ θ θ 求导: J ′ ( θ ) = 2 θ J'(θ)=2θ J(θ)=2θ

设: θ 0 = 1 θ^0=1 θ0=1   步长: α = 0.4 \alpha=0.4 α=0.4

θ 0 = 1 θ^0=1 θ0=1

θ 1 = θ 0 − α ⋅ J ′ ( θ 0 ) = 1 − 0.4 × 2 = 0.2 θ^1=θ^0-α\cdot J'(θ^0)=1-0.4\times2=0.2 θ1=θ0αJ(θ0)=10.4×2=0.2

θ 2 = θ 1 − α ⋅ J ′ ( θ 1 ) = 0.2 − 0.4 × 0.4 = 0.04 θ^2=θ^1-α\cdot J'(θ^1)=0.2-0.4\times0.4=0.04 θ2=θ1αJ(θ1)=0.20.4×0.4=0.04

θ 3 = θ 2 − α ⋅ J ′ ( θ 2 ) = 0.04 − 0.4 × 0.08 = 0.008 θ^3=θ^2-α\cdot J'(θ^2)=0.04-0.4\times0.08=0.008 θ3=θ2αJ(θ2)=0.040.4×0.08=0.008

θ 4 = θ 3 − α ⋅ J ′ ( θ 3 ) = 0.008 − 0.4 × 0.016 = 0.0016 θ^4=θ^3-α\cdot J'(θ^3)=0.008-0.4\times0.016=0.0016 θ4=θ3αJ(θ3)=0.0080.4×0.016=0.0016

梯度下降法举例(2):

在这里插入图片描述
J ( θ ) = θ 1 2 + θ 2 2 J(θ)=θ_1^2+θ_2^2 J(θ)=θ12+θ22

θ 0 = ( 1 , 3 ) θ^0=(1,3) θ0=(1,3)    α = 0.1 \alpha=0.1 α=0.1

∇ J ( θ ) = ⟨ 2 θ 1 , 2 θ 2 ⟩ \nabla J(θ)=\langle2θ_1,2θ_2\rangle J(θ)=2θ1,2θ2

θ 0 = ( 1 , 3 ) θ^0=(1,3) θ0=(1,3)

θ 1 = θ 0 − α ⋅ ∇ J ( θ ) = ( 1 , 3 ) − 0.1 ⋅ ( 2 , 6 ) = ( 0.8 , 2.4 ) θ^1=θ^0-\alpha\cdot\nabla J(θ)=(1,3)-0.1\cdot(2,6)=(0.8,2.4) θ1=θ0αJ(θ)=(1,3)0.1(2,6)=(0.8,2.4)

θ 2 = θ 1 − α ⋅ ∇ J ( θ ) = ( 0.8 , 2.4 ) − 0.1 ⋅ ( 1.6 , 4.8 ) = ( 0.64 , 1.92 ) θ^2=θ^1-\alpha\cdot\nabla J(θ)=(0.8,2.4)-0.1\cdot(1.6,4.8)=(0.64,1.92) θ2=θ1αJ(θ)=(0.8,2.4)0.1(1.6,4.8)=(0.64,1.92)

θ 3 = ( 0.5124 , 1.536 ) θ^3=(0.5124,1.536) θ3=(0.5124,1.536)

θ 4 = ( 0.4096 , 1.228800000000001 ) θ^4=(0.4096,1.228800000000001) θ4=(0.4096,1.228800000000001)
⋮ \vdots
θ 10 = ( 0.1073741824000003 , 0.32212254720000005 ) θ^{10}=(0.1073741824000003,0.32212254720000005) θ10=(0.1073741824000003,0.32212254720000005)
⋮ \vdots
θ 50 = ( 1.141798154164342 e − 05 , 3.42539442494306 e − 05 ) θ^{50}=(1.141798154164342e^{-05},3.42539442494306e^{-05}) θ50=(1.141798154164342e05,3.42539442494306e05)
⋮ \vdots
θ 100 = ( 1.6296287810675902 e − 10 , 4.8888886343202771 e − 10 ) θ^{100}=(1.6296287810675902e^{-10},4.8888886343202771e^{-10}) θ100=(1.6296287810675902e10,4.8888886343202771e10)

4、梯度下降法的步骤

(1)确定当前位置的损失函数的梯度 ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} θiJ(θ0,θ1,...,θn)

(2)用步长 α \alpha α 乘以损失函数的梯度,得到当前位置下降的距离 α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) \begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} αθiJ(θ0,θ1,...,θn)

(3)确定是否所有的 θ i θ_i θi,梯度下降的距离都小于 ε ε ε,如果小于 ε ε ε 则算法终止,当前所有的 θ i θ_i θi 即为最终结果。否则进入步骤(4)。

(4)更新所有的 θ i θ_i θi θ i θ_i θi 的更新表达式如下。更新完毕后继续转入步骤(1)。 θ i = θ i − α ∂ ∂ θ i J ( θ 0 , θ 1 , . . . , θ n ) θ_i=θ_i-\begin{aligned}\alpha\frac{\partial}{\partial\theta_i}J(θ_0,θ_1,...,θ_n)\end{aligned} θi=θiαθiJ(θ0,θ1,...,θn)

5、步长过大或过小的情况

在这里插入图片描述
6、梯度下降法的种类

  • 批量梯度下降法BGD:在更新参数时使用所有的样本来进行更新
  • 随机梯度下降法SGD:仅仅选取一个样本 j j j 来求梯度
  • 小批量梯度下降法MBGD:对于 m m m 个样本,抽取其中 x x x 个子样本来迭代

7、模型评价

在这里插入图片描述
R 2 R^2 R2为0时,模型最差; R 2 R^2 R2为1时,模型最好; R 2 R^2 R2越大,模型越好。

训练集上的 R 2 R^2 R2:拟合程度好;测试集上的 R 2 R^2 R2:泛化能力强。

四、线性回归的正则化

(一)正则化线性回归

为防止过拟合,引入了正则化(regularization)技术,就是在原来损失函数的后面加上一个关于模型系数的正则化项:

在这里插入图片描述
直观理解,因为正则化项的存在,当新的目标函数 J ( ω ) J(\omega) J(ω) 取得最小值时, L ( ω ) L(\omega) L(ω) 也不至于因为过小而产生过拟合。

正则化项可以理解成对模型参数的一种惩罚,在最小化误差的同时,使得模型参数变得更小(模型参数越小,甚至趋向于0,将降低模型复杂度,防止过拟合)。

(二)L2正则化与岭回归

在原来线性回归的均方误差后面增加 l 2 l_2 l2 范数做正则项,就是岭回归(ridge regression):
J ( ω ) = 1 2 m ∑ i = 1 m ( f ( ω , x i ) − y i ) 2 + α 2 ∥ ω ∥ 2 2 J(\omega)=\frac{1}{2m}\sum_{i=1}^m(f(\omega,x_i)-y_i)^2+\frac{\alpha}{2}\lVert\omega\rVert_2^2 J(ω)=2m1i=1m(f(ω,xi)yi)2+2αω22 ω ∗ = a r g m i n J ( ω ) \omega^*=argminJ(\omega) ω=argminJ(ω) 其中 ∥ ω ∥ 2 2 = ω 0 2 + ω 1 2 + . . . + ω n 2 \lVert\omega\rVert_2^2=\omega_0^2+\omega_1^2+...+\omega_n^2 ω22=ω02+ω12+...+ωn2

岭回归求得的权重系数虽然都比较小,接近于0但不等于0,说明它是比较均衡的对待多个特征。

(三)L1正则化与Lasso回归

在原来线性回归的均方误差后面增加 l 1 l_1 l1 范数做正则项,就是稀疏线性回归(Lasso regression):

J ( ω ) = 1 2 m ∑ i = 1 m ( f ( ω , x i ) − y i ) 2 + α 2 ∥ ω ∥ 1 J(\omega)=\frac{1}{2m}\sum_{i=1}^m(f(\omega,x_i)-y_i)^2+\frac{\alpha}{2}\lVert\omega\rVert_1 J(ω)=2m1i=1m(f(ω,xi)yi)2+2αω1 ω ∗ = a r g m i n J ( ω ) \omega^*=argminJ(\omega) ω=argminJ(ω) 其中 ∥ ω ∥ 1 = ∣ ω 0 ∣ + ∣ ω 1 ∣ + . . . + ∣ ω n ∣ \lVert\omega\rVert_1=|\omega_0|+|\omega_1|+...+|\omega_n| ω1=ω0+ω1+...+ωn

L a s s o Lasso Lasso回归求得的权重系数多数都为0,体现出稀疏性,说明它具有特征选择的能力。

(四)比较L1与L2正则化

在这里插入图片描述
超参数𝛼既不能过大也不能太小:𝛼过大,使得正则项的作用加强,会削弱拟合效果𝛼过小,惩罚力度不够,防止过拟合效果不明显。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/685876.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue开发网站—①调用$notify弹窗、②$notify弹窗层级问题、③js判断两个数组是否相同等。

一、vue中如何使用vant的 $notify(展示通知) 在Vue中使用Vant组件库的$notify方法来展示通知,首先确保正确安装了Vant并在项目中引入了Notify组件。 1.安装vant npm install vant --save# 或者使用yarn yarn add vant2.引入:在ma…

springboot整合redis多数据源(附带RedisUtil)

单数据源RedisUtil(静态) 单数据源RedisUtil,我这里implements ApplicationContextAware在setApplicationContext注入redisTemplate,工具类可以直接类RedisUtil.StringOps.get()使用 package com.vehicle.manager.core.util;import com.alibaba.fastjson.JSON; import lombok.e…

信息系统项目管理基础

目录 一、项目管理概论 1、定义 2、项目管理的十二原则 3、SMART原则 4、项目经理 5、项目的生命周期 二、项目立项管理 1、项目启动过程 三、项目整合管理 1、管理基础 2、项目整合管理过程 ①制定项目章程 ②制定项目管理计划 ③指导与管理项目工作 ④管理项目…

stm32之hal库spi驱动封装(实现阻塞,中断,dma三种方式)

前言 配置功能参考rt-thread驱动代码将中断配置和dma配置单独分开管理 代码 中断管理 头文件 /** Copyright (c) 2024-2024,shchl** SPDX-License-Identifier: Apache-2.0** Change Logs:* Date Author Notes* 2024-5-3 shchl first version*/#ifnd…

Python图形复刻——绘制母亲节花束

各位小伙伴,好久不见,今天学习用Python绘制花束。 有一种爱,不求回报,有一种情,无私奉献,这就是母爱。祝天下妈妈节日快乐,幸福永远! 图形展示: 代码展示: …

06.线程同步

互斥锁(互斥量) 描述 一个进程下的线程是共享资源的,通信便利的同时也造成了许多麻烦,线程程和线程之间如果同时访问一块资源就会出错,所以要引入一个互斥变量给它加锁,让它去协同不同线程程之间的访问&am…

【软件测试】3.开发模型

目录 1.常见的开发模型 1.1瀑布模型 1.2螺旋模型 1.3增量模型和迭代模型 1.4敏捷模型 1.4.1特点: 1.5Scrum模型(三个角色和五个重要会议) 1.5.1三个角色: 1.5.2Scrum工作流程(五个会议) 1.6测试模…

Unreal Engine(虚幻引擎)的版本特点

Unreal Engine(虚幻引擎)是Epic Games开发的游戏引擎,广泛应用于游戏开发、影视制作、建筑设计、虚拟现实等领域。Unreal Engine版本指的是该引擎的发布版本,不同版本之间在功能、性能和稳定性等方面存在差异。北京木奇移动技术有…

【JavaScript】内置对象 - 数组对象 ① ( 数组简介 | 数组创建 | 数组类型检测 )

文章目录 一、数组对象1、数组简介2、数组创建3、数组检测 - Array.isArray() 方法4、数组检测 - instanceof 运算符 Array 数组对象参考文档 : https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Reference/Global_Objects/Array 一、数组对象 1、数组简介 在 JavaScr…

【vulhub靶场】Apache 中间件漏洞复现

【vulhub靶场】Apache 中间件漏洞复现 一、Apache HTTPD 换行解析漏洞(CVE-2017-15715)1. 漏洞详情2. 影响版本3. 漏洞复现 二、Apache多后缀解析漏洞(apache_parsing_vulnerability)1. 漏洞详情2. 漏洞复现 三、Apache HTTP Serv…

JDK不同版本里中国夏令时时间

什么是夏令时? 夏令时,(Daylight Saving Time:DST),也叫夏时制,又称“日光节约时制”和“夏令时间”,是一种为节约能源而人为规定地方时间的制度,在这一制度实行期间所采…

day2_greedyIntervalsLRU/LFU

二、贪心算法之区间调度问题 0.计算一个区间集合中无重复的区间的最大数量(模板) public int intervalSchedule(int[][] intvs) {if (intvs.length 0) return 0;// 按 end 升序排序Arrays.sort(intvs, (a, b) -> Integer.compare(a[1], b[1]));// 至少有一个区间不相交in…