机器学习笔记（2）—单变量线性回归-编程知识

单变量线性回归

- 单变量线性回归(Linear Regression with One Variable)
- - 1.1 模型表示
  - 1.2 代价函数
  - 1.3 代价函数的直观理解
  - 1.4 梯度下降
  - 1.5 梯度下降的直观理解
  - 1.6 梯度下降的线性回归

单变量线性回归(Linear Regression with One Variable)

ps:...今天很倒霉一名小女孩悄悄地碎掉了...
and 这一章会涉及比较多的数学基础知识，如果学过微积分和线代的朋友们就是易如反掌信手拈来，不要害怕这个，简单看一下，很快就能理解了！

1.1 模型表示

我们的第一个学习算法是线性回归算法。
线性回归在介绍监督学习的时候就提到过了，有一定线性代数基础的同学应该也能理解线性回归的含义。
（没有的话一定要去学线代，这是学习AI的其中一门数学基础）

对于学习单变量线性回归算法，Dr.Ng在视频中举出这样一个例子：

这个例子是预测住房价格的，我们要使用一个数据集，数据集包含俄勒冈州波特兰市的住房价格。在这里，我要根据不同房屋尺寸所售出的价格，画出数据集。
比方说，如果你朋友的房子是1250平方尺大小，你要告诉他们这房子能卖多少钱。那么，你可以做的一件事就是构建一个模型，也许是条直线，从这个数据模型上来看，也许你可以告诉你的朋友，他能以大约220000(美元)左右的价格卖掉这个房子。

在这里插入图片描述

对于每个数据来说，我们给出了“正确的答案”，即告诉我们：根据我们的数据来说，房子实际的价格是多少，而且，更具体来说，这是一个回归问题。
回归一词指的是，我们根据之前的数据预测出一个准确的输出值，对于这个例子就是价格。
同时，还有另一种最常见的监督学习方式，叫做分类问题，当我们想要预测离散的输出值，例如，我们正在寻找癌症肿瘤，并想要确定肿瘤是良性还是恶性的，这就是0/1离散输出的问题。
更进一步来说，在监督学习中我们有一个数据集，这个数据集被称训练集。

接下来，将在整个课程中用小写的 $m$ 来表示训练样本的数目。

以之前的房屋交易问题为例，假使我们回归问题的训练集（Training Set）如下表所示：

房价预测的训练集

我们将要用来描述这个回归问题的标记如下:

$m$ 代表训练集中实例的数量

$x$ 代表特征/输入变量

$y$ 代表目标变量/输出变量

$\left( x,y \right)$ 代表训练集中的实例

${{x}^{(i)}},{{y}^{(i)}})$ 代表第 $i$ 个观察实例

$h$ 代表学习算法的解决方案或函数也称为假设（hypothesis）

在这里插入图片描述
对于单变量线性回归问题，定义如下：
当算法输出的函数只含有一个特征，或者说只含有一个输入变量时，就称这种问题为单变量线性回归问题。

对于这个房价预测问题，我们可以看到，训练集中只有房屋价格是一个输入特征，我们把它喂给了学习算法，然后学习算法给出了一个从训练集目标 $x$ 到 $y$ 的函数映射 $h$ 。

对于上述问题， $h$ 的可能表达方式为： $h_\theta \left( x \right)=\theta_{0} + \theta_{1}x$ ，因为只含有一个特征/输入变量，因此这样的问题叫作单变量线性回归问题。

1.2 代价函数

你可能会想，那么算法是如何拟合成为这条直线的呢？
那么这就是这一节要学习的代价函数。
如图：
在这里插入图片描述

在线性回归中我们有一个这样的训练集， $m$ 代表了训练样本的数量，比如 $m = 47$ 。而我们的假设函数，也就是用来进行预测的函数，是这样的线性函数形式： $h_\theta \left( x \right)=\theta_{0}+\theta_{1}x$ 。

接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的参数（parameters） $\theta_{0}$ 和 $\theta_{1}$ ，在房价问题这个例子中便是直线的斜率和在 $y$ 轴上的截距。

我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度，模型所预测的值与训练集中实际值之间的差距（下图中蓝线所指）就是建模误差（modeling error）。

在这里插入图片描述

我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。即使得代价函数 $\left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}$ 最小。

我们绘制一个等高线图，三个坐标分别为 $\theta_{0}$ 和 $\theta_{1}$ 和 $J(\theta_{0}, \theta_{1})$ ：
在这里插入图片描述

可以看出在三维空间中存在一个使得 $J(\theta_{0}, \theta_{1})$ 最小的点，这个点其实就是最优解，如果参数越多，等高图就会越复杂。

代价函数也被称作平方误差函数，有时也被称为平方误差代价函数。我们之所以要求出误差的平方和，是因为误差平方代价函数，对于大多数问题，特别是回归问题，都是一个合理的选择。还有其他的代价函数也能很好地发挥作用，但是平方误差代价函数可能是解决回归问题最常用的手段了。

1.3 代价函数的直观理解

在上一节中，我们给了代价函数一个数学上的定义。

在这里插入图片描述
平方误差代价函数的主要思想就是将实际数据给出的值与拟合出的线的对应值做差，求出拟合出的直线与实际的差距。
在实际应用中，为了避免因个别极端数据产生的影响，采用类似方差再取二分之一的方式来减小个别数据的影响。

1.4 梯度下降

在机器学习和深度学习中，我们通常需要优化模型参数以最大程度地减少损失函数的值。通过梯度下降算法，我们可以找到使损失函数最小化的参数值，从而得到更好的模型表现。

具体来说，梯度下降通过计算损失函数对模型参数的梯度（即导数），并沿着梯度的反方向逐步更新参数值，使损失函数逐渐减小。这样，我们可以通过迭代优化参数，不断接近损失函数的最小值，从而提升模型的性能和准确度。

接下来，我们将使用梯度下降算法来求出代价函数 $J(\theta_{0}, \theta_{1})$ 的最小值。

我们随机选择一个参数的组合 $\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right)$ ，计算代价函数，然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到找到一个局部最小值（local minimum），因为我们并没有尝试完所有的参数组合，所以不能确定我们得到的局部最小值是否便是全局最小值（global minimum），选择不同的初始参数组合，可能会找到不同的局部最小值。

在这里插入图片描述

想象一下你正站立在山的这一点上，站立在你想象的公园这座红色山上，在梯度下降算法中，我们要做的就是旋转360度，看看我们的周围，并问自己要在某个方向上，用小碎步尽快下山。这些小碎步需要朝什么方向？如果我们站在山坡上的这一点，你看一下周围，你会发现最佳的下山方向，你再看看周围，然后再一次想想，我应该从什么方向迈着小碎步下山？然后你按照自己的判断又迈出一步，重复上面的步骤，从这个新的点，你环顾四周，并决定从什么方向将会最快下山，然后又迈进了一小步，并依此类推，直到你接近局部最低点的位置。

批量梯度下降（batch gradient descent）算法的公式为：

在这里插入图片描述

其中 $α$ 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大，在批量梯度下降中，我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。

在这里插入图片描述

在梯度下降算法中，还有一个更微妙的问题，梯度下降中，我们要更新 ${\theta_{0}}$ 和 ${\theta_{1}}$ ，当 $j = 0$ 和 $j = 1$ 时，会产生更新，所以你将更新 $J\left( {\theta_{0}} \right)$ 和 $J\left( {\theta_{1}} \right)$ 。实现梯度下降算法的微妙之处是，在这个表达式中，如果你要更新这个等式，你需要同时更新 ${\theta_{0}}$ 和 ${\theta_{1}}$ ，我的意思是在这个等式中，我们要这样更新：

${\theta_{0}}$ := ${\theta_{0}}$ ，并更新 ${\theta_{1}}$ := ${\theta_{1}}$ 。

实现方法是：你应该计算公式右边的部分，通过那一部分计算出 ${\theta_{0}}$ 和 ${\theta_{1}}$ 的值，然后同时更新 ${\theta_{0}}$ 和 ${\theta_{1}}$ 。

1.5 梯度下降的直观理解

梯度下降算法如下：

${θ_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left(\theta \right)$

描述：对 $θ$ 赋值，使得 $J\left( \theta \right)$ 按梯度下降最快方向进行，一直迭代下去，最终得到局部最小值。其中 $α$ 是学习率（learning rate），它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。

在这里插入图片描述

对于这个问题，求导的目的，基本上可以说取这个红点的切线，就是这样一条红色的直线，刚好与函数相切于这一点，让我们看看这条红色直线的斜率，就是这条刚好与函数曲线相切的这条直线，这条直线的斜率正好是这个三角形的高度除以这个水平长度，现在，这条线有一个正斜率，也就是说它有正导数，因此得到的新的 ${\theta_{1}}$ ， ${\theta_{1}}$ 更新后等于 ${\theta_{1}}$ 减去一个正数乘以 $a$ 。

这就是我梯度下降法的更新规则： ${\theta_{j}}:={\theta_{j}}-\alpha \frac{\partial }{\partial {\theta_{j}}}J\left( \theta \right)$

学习率对梯度下降的影响

如果 $α$ 太小了，即我的学习速率太小，结果就是只能这样像小宝宝一样一点点地挪动，去努力接近最低点，这样就需要很多步才能到达最低点，所以如果 $a$ 太小的话，可能会很慢，因为它会一点点挪动，它会需要很多步才能到达全局最低点。

如果 $α$ 太大，那么梯度下降法可能会越过最低点，甚至可能无法收敛，下一次迭代又移动了一大步，越过一次，又越过一次，一次次越过最低点，直到你发现实际上离最低点越来越远，所以，如果 $a$ 太大，它会导致无法收敛，甚至发散。

Dr.Ng提出了这样一个问题，
当我第一次学习这个地方时，我花了很长一段时间才理解这个问题，如果我们预先把 ${\theta_{1}}$ 放在一个局部的最低点，你认为下一步梯度下降法会怎样工作？

如果， $\theta_{1}$ 已经在局部最低点，根据梯度下降的更新规则，结果就是导数为0
。因为在那个点上，它就是那条切线的斜率，它使 $\theta_{1}$ 不再改变。
这也解释了为什么在学习率不变的情况下，梯度下降也能收敛到局部最低点。

来看一个例子，这是代价函数 $J\left( \theta \right)$ 。

在这里插入图片描述

想找到它的最小值，首先初始化我的梯度下降算法，在那个粉色的点初始化。

如果我更新一步梯度下降，也许它会带到绿色的点，因为这个点的导数是相当陡的。现在，在这个绿色的点，如果再更新一步到红色的点，会发现斜率是没那么陡的。
随着逐渐接近最低点，导数越来越接近零，所以，梯度下降一步后，新的导数会变小一点点。所以，再进行一步梯度下降时，我的导数项是更小的， ${\theta_{1}}$ 更新的幅度就会更小。

所以随着梯度下降法的运行，移动的幅度会自动变得越来越小，直到最终移动幅度非常小，会发现已经收敛到局部极小值。

回顾一下，在梯度下降法中，当我们接近局部最低点时，梯度下降法会自动采取更小的幅度，这是因为当我们接近局部最低点时，很显然在局部最低时导数等于零，所以当我们接近局部最低时，导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度，这就是梯度下降的做法。所以实际上没有必要再另外减小 $a$ 。

这就是梯度下降算法，你可以用它来最小化任何代价函数 $J$ ，不只是线性回归中的代价函数 $J$ 。

1.6 梯度下降的线性回归

梯度下降算法和线性回归算法比较如图：

在这里插入图片描述

对我们之前的线性回归问题运用梯度下降法，关键在于求出代价函数的导数，即：

$\frac{\partial }{\partial {{\theta }_{j}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{\partial }{\partial {{\theta }_{j}}}\frac{1}{2m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}^{2}}$

$j = 0$ 时： $\frac{\partial }{\partial {{\theta }_{0}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}{{\sum\limits_{i=1}^{m}{\left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}}}$

$j = 1$ 时： $\frac{\partial }{\partial {{\theta }_{1}}}J({{\theta }_{0}},{{\theta }_{1}})=\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left( {{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}$

则算法改写成：

Repeat {

${\theta_{0}}:={\theta_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{ \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)}$

${\theta_{1}}:={\theta_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{\left( \left({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}} \right)\cdot {{x}^{(i)}} \right)}$