七月在线公开课笔记-二十三-

news/2024/10/23 18:37:15/文章来源:https://www.cnblogs.com/apachecn/p/18498008

七月在线公开课笔记（二十三）

人工智能—机器学习中的数学（七月在线出品） - P1：Taylor展式与拟牛顿 - 七月在线-julyedu - BV1Vo4y1o7t1

这次我们探讨它的展示与它的相关应用，如米牛顿。我们首先给出塔的展示的本身的，它的定义，它的展示的公式的本身。然后我们利用它来计算某一些函数的近似值，解释一下经济系数，它到底内部原因是什么。

然后我们看一下平方公式又是为什么是可以如此计算的。我们下面呢重点来探讨一下牛顿法，它的相关的内容。比如说我们先探讨一下它的梯度下降算法。在此基础之上，我们给出牛顿法以及拟牛顿它相应的一些内容。首先。

如果给定一个函数FX它如果性质足够的好，意味着如果说FX在某一点X0处，它具备可以计算它的N阶导数。那么说FX就可以在X0处做N阶的台脑展开，得到这样一个式子。

它的意思指的是在X零处的函数值加上X与X零的差值乘上一阶导。XX零的差值的平方乘上二阶导，当然有一个二的阶乘的系数。如果是N阶导的话，就一个N的阶乘的一个系数。这就是塔勒展示。如果我们令X0等于0。

我们在0X等于零在原点处做塔的展开，这样的式子就是麦克ling公式。所以麦克lning公式和它的展示，它的区别仅仅是展开的值本身不一样而已。本质它们是一个内容。那么我们利用这样一个公式。

非常方便的就能够来去计算一些初等函数的值。事实上，我们在原点对sine X做展开，sine导数是负的cosine X负cosine X的导数。换句化讲，sine X二阶导就是sine X本身。

那这样子就能够得到它的它的展示是这样的一个一个值。我们如果是取它的前边的若干项的和，就可以作为3X某一个弧度数，它的正弦值的近似。比如说做一的X方等于这样一个值，而这样一个过程，如果令X等于一。

那就意味着这是一。所以我们可以把后面的值写成。I的阶乘分之1，让这个I从零到无穷大，这样的一个加和最终就等于E的一次幂。这其实可以看作是E的一个定义。就是。自然呃自然数的接乘的倒数的和就是一。

当然我这个自然数是从零开始数的。事实上我们如果说让去计算，比如说E的100次方呢。计算一个非常大的一个数的若干次幂。那么说我们如果还是在零点处做材了展开的时候，往往这样一个加和项。

它的误差是比较大的那这样子我们在实践中可以做一定程度的一个小的变化。比如说我们给定一个正实数X，如果让大家计算一下100次方等于几呢？当然不能够利用系统函数，我们自己去做一个这样的过程。

一种可行的思路我们可以这么来处理，就是我们总是可以把这个X写作是login2的若干倍，加上一个余项的形式。这个K是一个整数，R是一个小数。实际上这个式子我们可以把它看作比方说大家要把123。

可不可以写成十的若干倍加上余项啊，当然可以可以写成12的10次幂加上3，这个十就是这个式子里面这个login2。我们要求的就是这个A和这个R。呃，这个K和这个R其实就是这个意思。所以任意给另一个X。

我们总是可以对浪2去。做除法，然后得到它的。我们要做的K和这个R的。那么说如果我们做到这一步了，一的X方就可以写成这个式子，这是两个数的加和取指数，就是两个数各自取指数的乘积。

而这个式子E的Lin2乘以K，可以写作一的Lin2的K次幂。一的Lin2，这是二的指数在对数再取指数，所以它本身就等于2，这是K次幂。所以这个数就是二的K41，这个一的2次方。

那如果在K是一个整数的时候，二的K4幂是非常方便计算它的值的。而R是一个从负0。5的L文2到正的0。5倍的login2，一个在原点处附近的一个值。所以我们就可以把E的R次方利用刚才的塔的展示把它给展开。

那么说E的R次方就能够做近似计算了。如此一来一乘就可以计算得到E的X方。事实上，在实践当中，有些语言真的就是利用这样一个机制来去计算的逆次运算。我们再来看它的它展示的第二个应用。

就是我们在决策数随机森明中会提到一个非常重要的概念。基尼系数，这是一个在实践中也是很重要的。比如说看一下社会上的贫富差距，我们也是用的基尼系数。而基尼系数呢，它的定义是这么来做的。

就是在某一个类别它发生的概率，乘以这个类别不发生的概率。然后所有的类别把它都加起来。这样一个做法就是我们的基尼系数本身。而这个东西为什么是这样一个奇怪的定义呢？

事实上我个人觉得我们可以利用塔的展示做一个解释。因为。FX如果等于负的login X这么一个函数，我们总是可以让它在X等于一处做弹到展开，我们只去展开到一阶，高阶给忽略掉。

那么这样的FX在等于一处近似等于一减X。我们知道商的定义是这个。信息商越大就表示这个越它的不确定性越大，这是信息商的定义。我们要把负的login X在这，负的loginP的K次幂换成一减P的K。

也就变成了下面这个式子。所以说。基尼系数这样一个定义，它和商是非常近似的，只是可以认为商这么一个值在X等于一处做材的展开，忽略掉高阶项的一个近似而已。我们如果把这么一个近似的情况画的一个图上的话。

基尼系数是这么一个曲线，商是这样一个值。而这样的一个值，事实上我们给的这个是商的2分之1。因为这里面有一个log可以与一为底P的case幂，也可以以二为底，或者是以1为底，这只是一个系数而已。

事实上我们不去管它的系数本身，所以有一个系数为了保持它是一样的。这样子的话。不管是商还是基尼系数，他们都可以对分类的误差率有一个非常好的近似。所以说我们在实践当中就可以利用基尼系数做决策数的特征的选择。

做特征，它的分分类点的分割点的计算。这个我们在讲到决策数随机C运营那一部分的时候，再详细探讨它的展示它的这一方面的基济细数的应用。事实上我们可以这么来做一个事情，就是假定给大家任意的一个正数A。

比如说A等于。123，那么说求123的平方根等于多少呢？任给一个A，我们想去求A的平方根等于几？怎么做呢？我们可以试着这么来去考虑假定要算的值等于X。

那就意味着X的平方是等于A的那就意味着X平方减A是等于零的。好，我就定义FX是等于X平方减A。那我要做的事情就是求FX等于零的时候，X应该等于几呢？我们现在就把FX做一阶的它的展开，高阶放在里面去。

因此，高阶忽略掉等号变成了约等于符号。我们要做的是FX等于0，把这个零带入到方程的左边。那么说右边是这个式子，为了计算，为了表达方便，把这个约用符号换成了等于符号，这是一个近似相等的。

如果说在X0处它的导数是不等于零的时候，我们就可以把它变成这样一个形式，你们都去除以XX0的导数。把X0放到右边去得到这样一个值。这样的一个值，我们FX0知道的是X0的平方减A。FX等于X平方减A。

所以FX的导数是等于2X在X0处的导数呢就是两倍的X0，把这两个值带入到这个式子里面去，就得到了它。这个式子稍加整理就得到了这样一个迭代公式。就是我们可以在任意一个点X0，我们带入右边这个式子里面去。

就能够得到1个X1。我们把X1再带到这个里面去，就能得到1个X2，把X2带进去就得到X3。我们不停的做这个事情。在某一次，当XI的值和XI减一的值，它的差距足够小的时候。

我们就将XI输出作为根号A的平方根的一个近似节。这样子我们就可以利用这个公式将。A任意一个正数的平方根计算出来了，这个其实就是牛顿迭代公式。我们利用刚才这个公式能够非常方便的写出这样一个代码。

计算A的平方根。而这个式子核心代码就是这一句。事实上，这样一个代码大概只需要5到6次的迭代，就能够得到一个A非常好的一个近似值。而多说一句，我们题目中一般而言，这个是可以在任意一点做。做初值的。事实上。

我在程序里面假定用A的。一半作为。平方根的一个初值。比如说要算100的平方根，目标肯定是十了。但其实X或初值是等于50的。事实上，我们如果是给一个更加好一点的初值的话，能够减少迭代次数。

甚至于减少到一次或者是两次，有兴趣大家可以看一下相关的内容，相关的论文。好了，我们现在呢再来看另外一个大的话题，就是。牛顿法你牛顿。如此一来，我们就先要介绍一下稀度下降算法。

假定我们通过某一种技术手段想去估算某一个参数西塔。并且已经能够对这个西塔建立了一个目标函数。J西塔。比如说我们利用最小二乘法建立好的目标函数是这样子的这就是一个关于西塔的目标函数，或者是一个损失函数。

或者是一个。效育函数增加函数，比如说用最大自然估计，用等等等等手段。都能够建立好一个关于s塔的目标函数。那么说我们现在要做的事情是。那么说我们想去算一下某一个西塔星，当等于西星的时候。

这样一个损失函数可以取得最小值。那么说这个西塔星应该在哪儿呢？我们可以这么来计算，就是先出随机的或者是先验性的给定一个西塔的初值。我们假定记得西塔。然后我们沿着这个西塔的负的梯度方向。

让这个西塔G去做一个迭代，得到新的西塔G，然后不停的做这样一个事情。那么说就给定一个西塔初值，不停的迭代再下降，再下降，不停做这个事情，最终就能够把这个西塔得到一个局部的极小值，这就是梯度下降算法。

这个下应算法是我们在积济学习中非常重要，也是在时间当中用的非常多的一个内容。当然，梯度下降算法它的相对的概念就是梯度上升算法，它的本质是一样的，就取决于我们是取它的局部的最大值还是局部的极小值。所以。

负的就是梯度下降算法，正的就是梯度上升算法。比如说阿尔法 go在做棋盘的这个全值的计算的时候，早期是直接使用监督的学习方式去来计算一下，沿着梯度上升去做的。当然后期他做了一个增强学习，那是领说了。因此。

我们这里边要想做季度下降或者度上升，只需要算好七度，然后给定某一个合适的学习率，或者叫步长就可以完成这个内容了。那么说我们可不可以利用咱今天说的材到展示做一点点的变化呢？我们来看一下它的内容。

如果目标函数FX，它的二阶导是连续的。我们就可以FX在某一个点处XK处做它的展开，得到这样一个值。这是在SK处做塔的展开，然后忽略掉它的二阶以及更高阶的二阶以上的鱼子式放在无云小里面去。然后呢。

这样一个式子，XK是一个常数。而这个X是我们的某一个变量。因此，这样一个式子可以看作是关于X的一个函数。我们不妨记做sX，这是关于X的一个函数。因此，这一个函数忽略掉高阶的无穷小。

这个等号就是一个约等于符号。然后我们对这样一个函数，关于X求导数。对，这个求导数，这是一的。给他求导数。然后第一项就。因为我们对X求导数，所以它是等于零的。我们第二项。我们做第二项求导数。只有X。

所以这个是它的导数，这是一个E的，这写错了，这是E的。然后这是它的FFKX的一阶导，然后对这个求导数是两倍的这么一个值，这个二和这个二消掉了，所以是二阶导乘以这个值，也就是它。

所以这是一个约等于这样一个值。然后我们对这样一个式子，如果想去求FX的极值。那么说这个极值它至少需要是注点，换句话讲，它需要的导数是要等于零的。既然导数等于0，那么说我们让这样一个式子直接等于0。

如果这个时候FK到二阶导是不等于零的，我们就可以把它除过去，移过移过来就得到这样的一个公式。这个公式就是我们利用了二阶导的信息做的一个近似计算。而这个式子里面用到了二阶导数。事实上。

这样的一个迭代公式就是牛顿法。大家如果把我们刚才给定的。FX等于X平方减A，看作是一个一阶导的话，带入这个式子，马上就能够得到刚才我们说的A的平方根的牛顿迭代公式。和本质是一样的。

而我们刚才给定的这样一个计算过程，是假定FX是1元的。如果是多元的，它的过程是完全一样的。只不过如果多元，它的一阶导就是一个向量。ただ。二阶岛就是一个矩阵。非赠举证。事实上。

这样一个过程就是我们牛顿的迭代方迭代的一个方式。我们假定在红色的是我们的目标函数，我们想替它下降。当前假定找到的值是XK这一点在这儿。那么说我们如果在SK处做一个切线。在给定某一个学习率阿尔法K的时候。

那么说从SK到了下一个点，到了这个值，这其实本质上就是梯度下降算法。而我们用的牛顿法，其实就是给定这一点的函数值，这点的导数值和这点的二阶导数值做了一个抛物线。这个抛物线是虚的。蓝色的这条线。

然后求这个抛物线的梯度为0，也就是它的最小值这一点。那么说SK就变到SK加上D这么一个值。所以本质上牛顿法是用一个二次函数去做近似梯度下降方法是用一个一次的函数做的一个近似，如此而已。所以一般而言。

牛顿法它因为具有一个二阶的收敛性，在某些部分函数中，它的收敛速度是比T的下降要快的。比如说线性回归那这次回归，我们在继续学习的课程中，会跟大家来详细阐述它的相关的问题。虽然如此。

但是呢虽然它具有一个二次的收敛性，但是我们往往要要求初始点尽量的是比较靠近于极值点的。为什么呢？因为如果我们发现它的二阶。导数的矩阵黑色矩阵是其一的这个牛顿方向就是不存在的。

也就是这里边的这个啊二阶导数值等于零的情况。如果不是这样子。如果发生KC矩阵，它不是正定的，那么它的牛顿方向甚至于都可能是相反的方向。等会儿我们看一个小例子。

另外呢我们在计算过程之中需要算一个黑en矩阵的逆矩阵。二阶偏导数的逆实实上计算的时间复杂度也是存在的。因此，牛顿法虽然具有二阶收敛性，在实践当中，某些目问题中也是发挥了重要作用。

但是往往我们需要对牛顿法在稍微的加一点点的改进。我们先来看第一个问题，就是黑en矩阵。如果不是正定的时候，它的搜索方向或许成了反方向了。左边这个图是我们刚才看到的那个正常的牛顿法的迭代方式方式。

但是如果我们的目标函数是红色这条线，假定当前值XK在这一点处，显然我们想找到这个值是我们的目标的一个局部的极小值。但是如果在这一点就给定了它的函数值一阶导和二阶导的时候。那么说我们给出的这个。

牛顿的近似的曲线，这个抛物线就是这样的一个曲线。这个蓝色的曲线它的极值点是在这一点处，这个是SK加上DK的值。而这个值显然它是反方向了，我们应该向左走的，它向右走了。

这就是它的二阶导是不是正定的情况所发生的事事情。事实上这个因为是1元的，所以它的二阶岛是一个负数，负数是牛顿方向完全失效了。那如此一来，我们往往就需要把牛顿方向变成一个。不是那么的牛顿方向。

比如说近似的一个牛顿方向，我们把它叫做拟牛顿半牛顿差不多的牛顿。事实上他的。原因是有这么几条。第一个就是我们要去计算这个二阶导的黑色矩阵，它的逆是影响到我们上网效率的。

另外呢我们发现搜索方向可以沿着负梯度方向，也可以沿着牛顿方向。那么我们可不可以沿着既不是梯度方向，也不是牛顿方向的某一个其他方向呢？事实上也是可以的，只要保证这么一个做的方向。

它所确定的那个矩阵是正定的，我们容易计算的就可以了。那么说我们有各种各样的拟牛顿的方案，我们来看一个它的相关的推导。假定我们的目标函数是FF西塔，它的梯度假定是G西塔，它的二阶导，我们记住H西塔。

如果西塔是一个N元的情况，则G西塔是一个向量。而二阶导矩阵这个H是一个N乘N的一个方阵。是黑粉矩阵。我们现在让F西塔在西塔I处做塔刀展开，得到这样一个式子。我们忽略到它更高级的无穷角放在里面去。

那这样子这个等号就变成了一个约等。我们现在仍然用刚才的思路把这么一个式子，方等式的约等式的两边。同时关于西塔求导数L西塔求导数，我们刚才给出定义就是G西塔。这个对西塔求导数是0。

这个对最求导数就是G西塔I。这个对C的求导数是两倍的。HI乘以西塔减西塔I这个二和这个二消掉了，因此就是这个。我们现在既然是任意的一个值。好，我们现在假定西塔是等于西塔A减一的，那么说就得到这样一个等。

这个等式我们把G西塔放在方程左边得到这样一个符号。我们用GI减1减G做G西塔A减1。这样一个值的时候，这有1个HI，我们两边同时对HI求逆就得到这样一个值。我们如果令HI的逆是一个。

N乘N的一个方阵记作CI，然后用德尔塔GI等于GI减去GI减1，这是7度的差值。德尔塔西塔I等于西塔I减去西塔I减1，这是我们参数的差值。那么说我们就得到这样一个非常重要的式子。

CI乘以德塔GI等于德尔塔西塔。然后我们再做一个非常有创造性的一个做法。假定我们当前这一步得到的黑森矩阵逆矩阵，也就是CI是经过加上一个低阶的两个。事实上，这个是一个一阶的。

这是一个一阶的两个小矩阵就能够。近似得到下一个时刻，他的。黑色举证逆举证。而这两个第一阶的逆矩阵，假定是CI是呃VI是某一个列向量，则VI的转制是一个行向量。

所以VI乘以VI的转质就是一个N乘N的一个低解这个阶，甚至于它的质VI乘以VI的转制，它的质只有一这么一个低质的一个矩阵。这个东西我们假定它加起来的时候存在一个系数AI，所以AI是一个标量，是一个数。

然后呢，或许它还需要对另外的一个向量，UI也是一个N行一列的一个。响料。UI也是1个UI的展制，就是一个航向量，所以这仍然是一个N乘N的一个矩阵，乘以某一个系数BI它还是个系数，这样子得到这个事情。

这是一个非常有创造性的想法。他的提出者是这三位数学家。然后呢，我们如果做了这样一个事情之后。🎼CI等于这个式子。好，我们利用刚才这个值就把CI加一这个值带到刚才这个上面这个结论里面去，就得到这样一个值。

让你把德尔塔GI加一都乘过来。然后得到这样一个等式。这个等式里边大家会发现。比如说我们观看这个。这个值其实是一个向一个矩阵乘以一个向量得到的。而我们想去求的是VIUIA和B这样一些系数。

VI既然是一个向量，我们就观察这个等式里边哪些是已经的一个向量呢？比如说da尔塔西塔I加一是参数的变化值，后一步和前一步，它的参数的差值。所以我们不妨就把这个参数的差值给认为是我们要做的那个VI。

如此一来，剩下的是AI这个系数。然后剩下的是VI的转制戴尔塔GI加一，这个值让它等于一。和这一项和最后这个d尔塔斯塔A加一，它们两个是完全相等的。同样道理。我们让UI这个列向量等于这样一个列向量。

如果UI的列向量等，因为CI是1个N乘N的矩阵，然后德尔塔GI加一是一个后一个梯度值减去前一个梯度值，它的一个差值，这是一个德尔塔GI加一是一个列向量，乘完也是一个列向量嘛。

所以我们如果令UI等于这个值的时候，剩下的项。剩下的是BI乘以UI的转制乘以德尔塔GI加一，让这个剩下的值等于-1。那这一个值和这个值也是完全能够消掉的，这样子这个等式就能够完全成立了。

而我们进一步考察，刚才给定这个式子里面VI的转制是个航向量。第尔塔GA加一是一个列向量，它乘完是一个数。所以AI的值可以写成这个数分之1。这样一个道理，同样这个值是个数。

把它写它方程的右边BI得到这样一个数。好了，我们有了这样一些过程之后，大家会发现VIUIAI和BI都能够通过我们已知的值能够把它给表示出来。因此回带到我们的这个式子里面去。

就得到了通过CI去计算CI加一的一个迭代的一个式子。这个就是DFP算法，他去近似计算黑森矩阵的。一举阵的一个方案。事实上，我们最早的CIC0可以用I来去做近似。因为如果C0是一个单位阵的时候。

牛顿迭代这种拟牛顿的迭代方案其实就退化成为了。梯度下降算法，因为一个。AI乘以。GI的时候，CI等于单位阵，它就是一个梯度嘛。所以我们用单位阵做近似是完全可以的。这是利用刚才这样一个式子。

就能够把它写成这么一个python的一个代码，然后放到我们的基术下情算目面去就可以了。另外呢我们如果。仍然是利用这样一个式子。假定CI是乘以这么一个值和它的一个转制。

再加上某1个VI和VI的转制和AI的一个乘积的形式，得到下一个值的。我们还是利用刚才那种计算方式就能得到这样的一个迭代公式。这样解代公式，它的名气更加大，叫BFGS。我们利用它也能够写出相关的一个代码。

这个是BFGS的代码。而不管是刚才我们用的一种方案去做的这个代码。BLP的一个代码，或者是我们给定的BFGS这个代码都能够把它去加入到我们的。梯度下降算法里面去，这个事实上是我利用。

老师的回归现梯度下降，加了一一句话。然后加在这里面就能够把梯度下降算法改造成为你牛顿的方法。然后这是我们的迭代的一个方案。事实上这样一个过程。

右上的这张图是直接使用沿着我们自然函数的正气度方向去做上升去得到的一个分界面。如果我们是用刚才的BFTS的方案得到的分界，它是这样子的。事实上。它的结果并不是完全一样。大家看细节，其实是有一点点的。

不一样的。但是呢用BFGS方案，它的确是收敛速度比。直接使用倾向降要越快一些。我这个数据里边。大概如果是使用我们的稀度下降算法，大约需要10的4次方，也就是1万次迭代完成收敛。

而BFGS方案我给它打出来了，大概只需要呃大概需要。呃，810次左右。到了811次，后面的值就完全收敛了。换句话讲，800多次或者说1000次左右的一个收敛。而。随机而这个老师的回归梯度下降方法。

梯度上升用的是十的4次方。当然，一个数据不能说明什么问题，只是说从感性上大家可以看一下，我们利用了材料展示。深入下去就能够得到我们想要的BFGS。当然了。

我们刚才给定的BFGS是1个N乘N的一个方阵ZK的迭代方式。在实践当中，如果N是比较大的。比如说我们用做自然元处理做图像处理在。CNN在。卷积神经网络出现之前的那么一个阶段，我们这个N是比较大的时候。

那么说我们往往是可以。取前若干次的C，让它直接做题。比如说前10次，当然实间中取2次足以了。那这样一个。本来是一个N乘N的一个矩阵，就能够只用N乘K做近似。比如说我们记做N乘M吧。

这个M如果我们认为是一个线是一个常数的话，那OM乘N就是一个线性的把M看到这常数，这个关于N是一个线性的这样子LBFGSlimit memory在有限内存的这种方案之下。

它就适合于特征比较巨大的寻优问题。好了，这就是我们今天跟大家来探讨的它的展示及其相关的应用。😊，我们发现它的展示它本身是数学分析里面的一个非常重要的工具，在做计计资计算。

在做迭代公式里面有很多很多重要的应用。另外呢T6下降算法，它其实还涉及到了下降方向的一个修正。比如说还涉及到了自适应学习率，如何去设置问题。经济系数呢，刚才我们给定的它是用的商的近似来去做的一个解释。

在实践当中，我们往往用与均匀分布的距离，也就是A的面积除以A的面积加上B的面积，作为经济系数的一个计算方案。这部内容呢，我们在经济学习的课程之中，再给大家来做进一步的探讨和讨论。好了。

如果大家有什么更多的问题呢，非常希望大家在我们的主来EU点com的社区上。😊。

发言，然后我们共同探讨。

人工智能—机器学习中的数学（七月在线出品） - P10：四个基本的子空间 - 七月在线-julyedu - BV1Vo4y1o7t1

那么刚开所说了线性组合对吗？列的线性组合。那么我们考虑一下所有列列的所有的线性组合。就是说如果这个前面的系数我们任意句在实数空间里头任意句。那么它实际上呢这时候呢就构成了一个span。

实际上本质上它就构成了一个子空间。也就是说A等于A一等于到AN它这些列的所有的线性组合，我们就构成了一个span，构成span，实际上也就是这个矩阵A的子空间完全等价的。

那么此时如果A1到AN是线性无关的那么就是S的一组基，啥意思啊？

这三列。就是鸡。看到了吗？1002301-11，它们就是R3这个空间的一组机，因为它们线性无关。而且他把这个空间给张满了。

所以可以想象这个鸡就是非常就用我们成语来说就是恰到好处。多一个他就线性相关了，少一个。😡，他线性无关，但是他把这个空间张不了那么满。那么就是说这个子空间刚好有这些。知。

能够表示。对，spa可以理解成生成。所以就说这个机很有意思，它就是这个子空间最大的线性无关组无关的向量的向量，对吧？它像就这样。所以你可以想象S这个子空间啊，它可能有不同的一组机。

但是机里面的数量是不是相同的，是相同的。我们比如说看一下这个意思啊，矩阵A100230330。我们可以看到第三列实际上是前两列的线性组合，所以这个矩阵。是这个列是先进相关的。但是我们可以找到一组基。

让它张成一个子空间，看到了吗？那么这个子空间就是100前两列230，它就可以张成一个子空间。那么这比如说这三列最终的结果，它只能张成一个子空间。那么这这一列实际上就是多余了。

为什么我根本就不用你这一列的现金组合，我这一列不要你了，我就用前两列去张这个空间。是不是就可以张成一个子空间，这个子空间怎么去理解呢？我们后面用图去理解一下啊，不着急。

你可以想象子空间我们在数学上有个定义，就是说如果两个向一个向量X在子空间内，一个向量Y在子空间内，那么X加Y也在它的子空间内。那么你怎么去理解一下这个子空间呢？咱们看一下这个图。

看啊，那咱们在后面这个例子啊去解解释一下啊，这个地方你先理解一下基是什么意思，对吧？你看下啊，比如说我们这个地方我们现在来定义四个基本的子空间。比如说列空间就实际上是刚才的span，就是这个列的向量。

章程的这个空间，实际上就是所有列的线性组合，就是A用方程来表示，就是Y等于AX。刚才我们不是说了吗？Y等于AX就是。A的所有列的线A的列的线性组合吗？当然X取任意值的时候，不就它的列的所有的线性组合吗？

它就构成了一个子空间。咱们来看看这个例子，马上就能理解到子空间啥意思啊，你看这个向量。比如说这个例子啊，这个向量有一个向量是033，我们是这个方向的。还有一个向量呢是142，咱们是这个方向的。

刚才我说这两个向量的线性组合，所有的线性组合，它构成了一个平面。那么这个平面实际上就是子空间，明白吗？这个平面就是这些列的所有的线性组合，它只能构成一个平面，它就是子空间。为什么叫子空间呢？

这个子是从哪来的？因为我们这个空间本身是个R3的空间，看到了吗？是个三维空间，结果你这只有两列，你去线性组合没办法呀，我们就只有两个向量，我怎么也张不成一个三维空间啊。不。

你就认为这两个向量的所有的线性组合构成的这些点，它不就构成了一个平面吗？对吗？我们想想啊再来想想，我们不着急，慢慢来讲，就说033142，你比如说这这个线向量的线性组合，这有一个线性组合。

用平行四边形法则。哎，我不就是得到了一个点嘛？这个向量这些点所构成的这些集合。我们就是构成了一个子空间，实际上就是在这里头我们就理解成是什么，够理解成一个平面，对吗？两个限量线性组合。

所有的线性组合构成了一个平面。这时候大家想想，如果我这时候还有一个向量和这个平面不共面。为啥要乘以X1X2，就是这个列的这个两个向量所有的线性组合，这是线性组合的系数啊。因为你你个X1X2。

我们就可以得到两个向量组合，不就可以得到一个向量吗？这些所有的这些组合不就得到一个子空间吗？对吧。对，可以类比啊。大家去再去想一想啊，我再说一下，比如说033142这个向量线制性组合啊。

你看嗯我稍微擦一下啊。😊，不着急，我们把这个地方讲清楚，子空间讲的清楚了，我觉得是最主要的一个地方。我觉得我们至少我上上学的时候没讲清楚哈，我我至少我没理解到是啥意思。

就我慢慢后来在我的不停的学习过程中，我觉得哎我才差不多全部能能够完全理解到这个东西啊，因为它是非常重要的一个概念。你看033是一个向量没问题吧，在三维空间里，142是一个向量，对吧？哎。

这两个向量的线性组合，你可以想象，哎假如说这个系数X一等于1X2等于一，我们不就构成了一个平行四边形法则就得到了一个向量吗？这个向量一定这个向量这个点一定在这个平面上，对吗？对的。

两个向量构成二维的一个平面，三个向量就三维的子空间。那么好了，我们所有的点X1X2任意取，我们不就可以得到一个平面吗？对，所以此空间必须包含零点。因为为什么X1X2可以为0啊。对吗？X1X2为0。

所以子空间一定包含0点。好了，我刚才说到这这个玩意儿只能长成一个平面，但今天咱运气好，咱142033旁边再来了一个向量，咱是往这个方向走。那么大家可以想象这三个向量的所有的线性组合。

我们是不是能够把这个R3空间给它填满？对吧。那么这时候你就可以想象，为什么子空间就是这个平面，它不是R3的一个子空间是什么呀？子啊，subs space。😡，理解了吗？就这样的一个概念。

就是我们可能它的子空间就是说它在它上面有一个满的空间。在它上面是有一个满的空间，它这个平面只是这个满的空间的一部分。不需要垂直它的平面，任何向量都可以。你可以去想象，只要这三个向量线性无关。我。

一定能够涨成230空间。对吧？而且还有一个更好的性质。比如说那么大家想想，如果这个三个空三个向量能够张成这个空间，那么AX等于B。这个B你这个向量，这个B，你在这个R3空间里任意取。

我是不是都能够找到解？因为A的列已经把这个子空间给张满了。你现在给我在这个空间里任意找一个向量，我能不能找到解？都都可以，对吧？哎，这就是子空间的概念，大家下去再去思考一下啊。好吧，好。

我们这时候来想一想零空间啊。第二个X1X2对，可以取认可值。我所所说的列的线性组合是包括列的所有的线性组合。X1X2，你实数是空间就随便去取。

R3子空间是相当于几维空间嘛？R3子空间就是这个子空间就是个平面嘛，它是R3，就是一个这个我们所说的这个R实数的这个空间嘛，就是向量的一个空间。R3就相当于在我们这个里其实是一个三维空间，对吧？

所以这个平面就是个三维空间的一个子空间。那么好，假的现在是R4呢。他肯定也有一个子空间，对吧？和这个类比下来是不是一样的？不能说是R4的子空间，因为为什么我们这个向量啊，我在后面跟你说。

这个因为你这个向量长度只有3看到了吗？123，所以你只是三维，你要是R4的话，我们就是这样的形式啊。1423，明白了吗？好了，我们现在1423现在是0330这两个向量。

这两个向量就所有的线性组合就构成了一个子空间，它是R4的一个子空间，想象不出来，没关系，你不要去想，因为你就往上扩这个线应该说就是往上扩，你不要去想R4，R4，你怎么能画得出来。

我问你我们生活在三维空间内，你怎么去画R4呢？只能做投影，对吧？但是这个就很复杂了，我们不去想那么多，但是你用三维的这种思维去想就可以了，对吧？不要把自己脑子搞得那么复杂，知道吗？

这个东西就是简单的往上扩展。你三维想通了，思维不就自然而然，就认为是什么呢？就认为是一种哎递归或者说一种什么样的往上扩展上去就可以了。对吧。想出来肯定是大神，那我觉得确实是大神，那是物理的大神，对吧？

咱们无法理解，咱们也不用去理解，对吧？好了。

这是我第二个子空间，我们刚才讲的一个子空间，对吗？列空间。现在我们讲第二个子空间零空间就说零空间什么意思啊？就是包含AX等于零的所有解的集合。注意这时候零空间，它是RN的一个子空间。但不是RM。😡。

我们来想想，我们说这么这样直接说肯定很多人不理解。我们来看看这个例子啊。R3的矩阵，如果三个线性相无关，它的子空间也是三维，就说R3的矩阵，它的三个线性无关的向量，那么它就张成了R3。

那么R3就是它自己啊，它的子空间就是他自己。这个也是就个子空间啊，这个子空间本身就是R3呀。明白吗？他就填满了，它跟R3是完全等价的。对吗？好了，现在我们看看A的零空间的G啊。你看这个这个项量。

这个向量我先问大家。列的空间它是R几。你别看他有4个向量。😡，现在我觉得大家可能应该都能理解了，它是R对吧？所以就在这里头AX等于B。你想你要让AX能等于B呃，AX等于0，不好意思，AX等于0。

那么你这个向量这个解。至少得有4个数吧。😡，所以这个数这些数本身就是R4嘛，对吧？它R4的中的一个向量嘛，就是R4，对吧？所以为什么说AX等于0，它的解是R4的一个子空间呢？我们来看看啊。

但是这个RN嘛，因为我我刚才所说了，我们在这个里面的例子全部定义成M乘N啊矩阵。所以这个矩阵就是二乘4的一个矩阵，对吧？两行四列的一个矩阵，所以你的解因为你二乘4乘以只有乘以4乘一才能得等于才能相乘嘛。

AX等于B嘛，对吧？所以你这个向量的解实际上是4个数。对吗？四个数好了，我们看看这两个解是怎么解出来的。大家可能这个时候已经忘了。那么A呢实际上是这样，A呢，我们把第一行乘以-3加到第二行。

第一个数一乘以-3加到3就变成02乘以-3，加到第二个数就成82。乘以-3加604乘以-4乘以-3加起来就等于对吧？就等于4。所以这时候呢我们让这两列，因为你这时候是UX等于0。

是际上AX等于0和UX等于零是完全等价的。那么我们让这个X后面的这两个数分别取10，这实际上就是叫做variable的这样的一个变量，前面的这个在数学英文里头叫，但是我不知道中文里头怎么翻啊。

但大家不管那么多，反正总之你第一这个地方取10，这个地方取01，我就可以找到两个解，最根本的你现在不不要去想这解怎么来的，你我反正现在又找到两个解。好，这两个解大家看看这两个解是不是啊线性无关的。对吧。

这两个解释是线性无关的，是线性无关的对吗？所以。他就是这个零空间的积啊。因为已经到最大了呀，我就找到了两个解，而且这两个解还是线性无关的，我不就机嘛，所以。😡，NA就是这个A的零空间呢。

实际上就是这个列这两个向量的线性组合，我们就写成C的形式，写成C的形式，实际上就是指就是列空间，实际上就是指这两对吧？所以AX等于零的解，实际上就是这两列任意的线性组合。

那么大家想想任意的线性组合不是就是R4的一个子空间吗？U是怎么L，我再解一遍，就是第一行乘以-3加到第二行去。这叫做高促销源，忘了去查查现性代输出啊，应该是第二章可能什么时候就就有讲的啊。

所以AX等于0就等于UX等于0，这是方便你去解方程了，好吗？所以唉现在的零空间呢就是RS的一个子空间，对吗？零空间就是A的零空间。对，就是A的零零空间，就是A的零空间。

实际上就是AX等于零所有X的解的集合构成的空间。就叫做零空间，它实际上是一个子空间，对吗？它实际上就是R4的一个子空间。大家这里头有没有问题？现在理解了吗？刚开始说刚开始看我们的列的线性组合。

不是构成了一个R的子空间吗？我们现在零空间是R4的一个子空间吗？对吧？不冲突啊，完全不冲突。因为这是矩阵，就是它这样特性，它的行和列不一定完全相等，对吗？就是你这个举证并不一定是方正啊，对吧？好。

解构成的空间就是零子空间。还有两个子空间，一般书上我们不定义啊，但是其实是非常重要了。缺少这两个子空间，我们整个现性代数就不是那么完美了啊。

就是在这零空间就是求AX等于零的解。对，是AX等于零的解的所有的所有的解的集合构成的空间。或者说我们就是要找AX等于零的两个这个这个零空零空间的两个积。比如说S1，这S2就是两个基，就是它的积。

这个基础上就是两个线性无关的向量。然后我们把它做线性组合，那么就等于AX等于0。

界线性无关。对的。2乘4的列空间怎么解解释呢？因为你是列的线性组合，对吧？你的列的线性组合13282646，就所有列的线性组合就是前面乘以一个X1这个地方乘以X2，这个地方乘以X3，这个地方乘以X4。

所有列的线性组合。那么。可以想象，关键是你这一和3，你总共只有R2啊，你不是R2的一个向量吗？所以你这个列的线性组合再怎么组合，你不是也是R的子空间吗？当然这种情况下，我们把R给装满了。明白吗？

因为这个矩证的质就是R。所以我们就把这个R给指控在，后面说明这些都是多余的，知道吗？X也不是唯一的。啊，满制的时候零空间是啥？待会我们来讲啊，列向量的个数是什么？不是列向量的个数。

列对它的质就是列这个线性无关的列向量的个数，但是它的子空间是这个列向量的长度。它是谁的一个子空间，它是R2的一个子空间，它就是13，它实际上列的长度只有13了。明白了吗？这因为只有两个数啊。

不是R2是还R几啊，对吧？你现在这不是有4个数嘛，就答位就是R4。X只有零解的时候，还有零空间吗？我们后面来解释啊。

好，我们先现在先不考虑那些特殊情况，就是有没有零解啊，有没有解啊，这些东西咱们不考虑咱们从大体上先去掌握一下这四个空间是什么东西。咱们再来看一些特殊的情况啊。你这样的话很容易我就整到细节上去了。

那么行空间是什么？行空间就是所有行的线性组合，列的线列空间大家刚才都介绍了。那么航空间很容易理解啊，行空间不就是实际上就是这样，这是第一行对吗？写到这儿，我们转制一下，第二行三八六十六，我们写到这儿。

这两行的所有的线性组合是不是就构成了航空间？明白吗？没问题吧。把转制一下呗，就行的线性组合构成的空间就叫做行空间。没问题OK左邻空间就有点特殊了。一般书上好像我确实没在中文的书上看到过。

实际上就是说你刚才不是能够定义AX等于零的所有的解的几何嘛？那我现在也可以定去A的转质乘以Y等于零的解的几何嘛。那么这时候呢，它实际上就是RM的一个子空间。为什么叫左邻呢？

你把这个A转制乘以Y再转制一下，就变成了A的转质乘以A。等于0。哎，你看以前是AX等于零对吧？是零空间，现在我们这个X跑到这儿来了，跑到左边去了，所以就叫做左零空间，理解了吗？它是这样的一个意思。

关键的最主要的核心啊，我们现在不是讲了四个组合空间嘛，咱们来看看这四个组空间到底有什么关系，这是最主要的啊。今天这幅这是最主要的一幅图啊，这是这这实际上是现金应来说最主要的一幅图。

咱们刚才首先讲的列空间，对吧？

咱们1。1点来看啊，你把这个理解完了以后，我们来再来看一些特殊情况。列个空间对吗？是A，它是RM的一个子空间有没有问题？想想刚才那个R的那个情况。它是RM的一个子空间，对吗？

因为这个列的这个里面的每一列，它的长度是R。长度的个数是M，对吗？所以它是RM的一个子空间。那么它的尾数是什么呢？实际上就是这个这个列空间，它肯定有一些积，就和我所说的那个最大的线性无关的向量的个数。

就是它的尾数就是R。就是矩证的A的质。这就是矩证的A的H。好，列空间在这里我们把它放在这儿啊。那么你想吧所有列的线性组合那么当然构成一个子空间了，就是这样的一个形式，对吧？这是子空间。那么看一下零空间。

领空间在这儿。刚才所说了零空间是RN的一个子空间。再想想这个例子。

这个例子A它的列空间是什么？R2的一个列空子空间，对吗？它的零空间是什么？R4的一个子空间，对吧？哎，这是R4的一个子空间，就在这里头话，R4的子空间。那么我们想想。

关键的这个左邻空间这些向量是指啥意思？大家去想想。我稍微停顿一下这个地方。因为我刚才讲了左邻空间，它也是RM的一个子空间。那么左邻空间我觉得我给大家说一下，左邻空间实际上就是说和A的列相垂直的那些。

和A的列。列的子空间相垂直的那些向量构成的集合，就叫做左邻空间。

因为从这个式子其实很容易说的，因为A转制乘以Y，你就可以看出来，它实际上就是这个Y和A的这些列相垂直嘛。零空间中任何一点对应列空间的理解，不是这样的意思。我们到后面来说这个问题，咱们你现在重重点的时候。

先理解这个左零空间和这个列空间有什么关系。

它实际上就是说这个列空间和左邻空间合在一起，我们就构成了RM的这样一个空间。我们举这个例子，还是举这个例子，列空间是构成了一个平面，对吗？左邻空间是什么意思啊？

就是说和这个平面垂直的那个向量。他就是一个子空间。这三个这个向量加上这个平面，我们就把这个R3空间给填满了。停顿一下想一想。

列的空间。是这样的一个能和列的空间相就是和相当于和这个列全部能够垂直的那些向量，它就构成了左邻空间。

你可以，当然你说法向量也可以，但我们在里头不说那样的法向量，这个平面我们不说那样的法向量，咱们就认为这个向量和这个平面垂直。对你就认为是法向量吗？和它这些平面全部垂直。

不我刚才所说了，如果这些列。如这个本身你要构成这个R3空间啊，注意你本身要构成这个R3空间，这个向量和这个平面不需要垂直，完全不需要垂直，只要线性无关就可以了。但是我们这里都定义了一个叫左邻空间的东西。

知道吗？咱们定义了一个新的东西，叫做A的转置乘以Y等于0。

就说你这个空间的补集有很多，明白吗？但是和这个空间，这个补集正好是正交的那个空间。

咱就必须要求这个向量和它垂直啊。理解我的意思吗？这就非常好啊。😡，我们构成这个空间的补会有很多情况，就像刚才所说的，我们这个空间的补是不是咱一个跟它不垂直的向量也算是补。

但是我们现在要求的是个什么东西啊，是要求和这个列空间相垂直，就正好和那个平面相垂直的空间就叫做左邻空间。

有什么用的地方，你先我就再说一遍，你先先不要管我这个东西有什么用，有用的时候自然继续续续，你就慢慢你就能够用到了，你就会看到很多东西它是有用的啊，咱们现在先不提。从哪里看出垂直啊，在这儿。

你看这两个子空间的夹角正好是90度。比如说这里面的向量，说白了这里面的向量和这里面的向量是完全垂直的。这个里面向量垂直的定义是A一个向量和B，它的内积等于0。对，针交，这就叫做针交。明白吗？再说一遍。

一个空间它是RM的一个子空间，那么它的补有很多，但是我们需要的是一个左邻空间，就是和这个列空间正好完全构成了一个正交补。我再来说一下这个正交补什么意思啊，你看看这个正交补的时候，他们这个焦点啊。

是什么是一个零点。它焦点是一个零点。你可以想象你们家的两堵墙啊，你们家两堵墙构不构成一个镇脚补？你们家的两堵墙实际上构成针角布，为什么你们家两堵墙之间的那个交接的那个地方是一条线，对吗？

那个线它既属于一个平一个平面，又属于另一个平面。而正交补的意思就是说它不仅是垂直的，而且它们的公共点只有一个零点。就说这里面有一个向量，这个地方就是零向量啊，就唯一一个交界处就是零向量。

就是这里面有个向量和这里面有一个向量，它们是完全不在一个子空间内的。所以Y可以理解成这个子控键是CA，我稍微看一下啊，大家写的。CA和NA的对。CA和这个左邻空间合在一起，我们就把RM给填满了。

就这里面的向量和这里面的向量，我们再做一下线性组合，是不是RM。是这两个。子空间合在一起生成了R4，比如说就是RM。我们刚才所说的RM什么意思呢？这里面我找一个向量，这里面我也找一个向量。

这两个向量是垂直的，我们再做一次线行组合，我们就够就找找到了RM中的一个向量，就是RM中任意一个向量拿到了以后，我们就可以找到这样的一个向量。两个空间相交是极限，为什么是零向量呢？对。

所以就说那个就不叫做正交补，明白吗？我们所说的正交补就是说一定是这个地方，它的焦点一定是零。明白吗？哎，对，零空列空间和左零空间的交集只有0点。交于一个零点。只有一个零点，由这两个里面的向量。

他们各自在各自的子空间内，他们不会产生任何的交集。他们这两个子空间唯一的交集就是零点。

好了，咱们回到这个地方再来解释一下。😊，如果这个地方是个子空间，对吗？这个平面是个子空间。

另外一个它的左邻空间是什么？😡，一定是和这个平面垂直的一个向量，你要找到一个和这两个向量垂直的向量不是很容易吗？这个我就不用去解释了，对吗？他肯定能找到一个和这两个向量去垂直。

这个垂直就是说他们这个向量的内积是0。哎，这是一个平面，这是一个这是一个子红线，对吧？这向量你也可以构成一个子红线嘛，就是一条线嘛，我们认为就是一条线，他们唯一的焦点是什么啊？零点呐。对，理解成集合吧。

咱们简单的认为就是实际上就是这个集合构成的一个面嘛，咱们也比较平面了，咱们就叫面。另外一个呢。是一个向量，是一条线，对吧？哎，这个合在一起对，一加二等于3，这个的尾数是几？2对吗？

是指它的线性所是指它的线性无关的列向量的个数是2，对吗？这个呢它只有一个向量呢，我的尾数当然是一了，一加二是不是构成了R3？对，那么到S4的时候就可能是这样子了。你比如说啊到S4的时候。

这个假如说这个这个向量比较长。

我们到R4的话，比如说这个刚才举的意思，1423，就比如说现在有4个列向量的话，那可能就是前两个向量，它就构成了一个子空间。后面的这两个向量呢，如果能够和这两个向量垂直，而且线性无关。

所以这时候他们就构成了左邻空间，明白吗？就说和这两个列向量相相垂直的那些向量，我们就构成了左邻空间。

好，有人明白了啊，不明白的大家再下来想一想啊，因为这个东西是不容易理解的。因为很多人我觉得在线性代数这一张，我觉得什么子空间那张几乎等于没学是吧？因为我们就记了AX等于B，对吗？

对吧我们就记了个S等于比。其实当时我学完也就记了个S等于B，但实际上不是这么简单的，就是说你看这个矩阵，就把这个数括起来以后，就会有这么多东西啊。

你可以感到这个线性代数其实是一个啊我个人觉得还是数学是有有美妙的东西在里面的啊，一些杂乱无章的东西里面竟然隐含着很多规律，对吧？列空间为两面墙，左邻空间就是地板。可以认为这样子。可以认为这样。

因为那个玩意地板和那两个个空间它的焦点只有一个零点，对吧？好，我们现在来看一下零空间啊，零空间刚才所说的是RN的一个子空间，对吗？那和它一样呢？这个行空间是什么意思呢？

行空间实际上就是和这个零空间的向量所垂直的向量构成的空间，不就是行空间吗？而且这两个空间构成了一个正交补的关系，这里面的向量和这里面的向量是完全垂直的，为什么呢？

因为我们在定义零空间的时候就这样定义了呀，咱们定义了AX等于零啊，所以行空X就和这个A的每一个行是相互垂直的，明白吗？

嗯。AX等于YA的转质乘以B等于0例思咋理解了，没理解是吧？哦，我这个给大解一下啊，是不是这个意思啊，A的转质乘以Y等于0，我们把这个式子两边转质一下，对吧？

不就Y的转制嘛，因为转制的时候有个公式就是先写右边的转制，然后A的转制的转制不就是A吗？零向量再转制不是就变成一个横向那样的零了吗？这不就是Y转制A等于零了吗？对吧？OK如果实在有听不懂的。

你要下来再补一补啊。因为这个东西可能还是需要有一些稍微有一些基础啊，再去理解一下啊。我相信这里面如果矩证和现性代数如果稍微基础比较好的，应该能够大致了解到是什么意思啊。

AX等于零是为A的列空间与的任意向量与X垂直波。就是AX等于0。这是我们就用行视图来看。

AX等于0。那么行事图就是说。A的每一行，因为你看嘛AX等于0，不就是我刚才所说的行式图，你看。

就是2-1乘以XY对吧？它们俩的内积等于0吗？那么不就是这一行和这个。XY垂直嘛。😡。

对吧所以你零空间是指AX等于零的那些X，对吗？那么你行空间又是行的线性组合，那么你的这个AX等于从AX等于0，不是马上就可以知道A的那些行和X是垂直的嘛？所以这个A的行的线性组合就就构成了一个子空间。

这两个子空间就正好是垂直的吗？

Y的转值乘以X等于0，我们就可以说明为什么是叫做左邻空间，你明白吗？就是AX等于0。我们X我们认为它的是它的右零空间，通常称为，因为X在右面。

这个左邻空间就是Y，现在跑到A的左边去了，就叫做左邻空间，对吧？好。

我们就这样就不是把空间就可以搞搞不太明白，咱们下来再花点时间去搞啊。因为确实这个比较难，大家多花点时间想一想。

那么这这样就你想一个矩阵有个一个矩阵A实际上无非就是说我把AX等于零和A的转质合在这些东西联合在一起嘛。就A的转质乘以乘以比如说Y等于0和AX等于0，以及A的列的线性所有的线性组合以及A的行。

所有的行的线性组合就构成了这样四个子空间，这样四个子空间分别这两个子空间，把RN给填满了，这两个子空间把RM给填满了，非常完美。就是这两个空间，也就是说这两个这个向量说白了这个空间中的一个向量。

那么在零空间一个向量。好，这个呃左零空间一个向量，列空间一个向量。这两个向量，比如说正好在这这里面有两个向量啊，这两个向量的线性组合它一定在RM里的，明白吗？裂空间和航空间裂空间航空间没有直接的关系。

明白吗？但是他们的唯一的关系在这儿。😡，🤧是。😡。

这两个空间不一样，为什么你看列空间的是R2，对吧？它是R的一个子空间。航空间是减R4的一个子空间，对吧？列空间是R，行空间是R4，再想想行空间是4个向量，四个数啊，列空间是两个数啊，对吧？

两个数和四个数这两个数没有什么关系，但是列空间中线性无关的向量最大线性无关的向量的个数是R。

这是所所说的矩阵的行制等于列值是怎么来的？就从这儿来的。你完了吗？行制等于列质是指他们的线性无关的向量的个数是相同的，并不是说这个向量它们的长度是一样的，明白了吗？明白了啊。

OK那这两个就相当于相当于类比嘛，大家去类比啊，你你你这个空间没满，我这个空间把你给补满，你这个空间没满，我这个空间把你给补满。但是我们现在来讲讲一些特殊的情况，就讲一个特殊情况啊。这种我举得。

这种长条的剧展。比如说1415。这个地方写成152。这个长条的矩阵这个矩阵啊，如果。注意这个矩阵，如果它的质就是二，本身这两个页因为线性无关，那么它的零空间。的尾数就变成零了，为什么？

因为零空间的尾数是它的列N，是两列减去R。等于0。那么这个子空间它就没有零空间，很简也也正常啊，对吗？因为没有线性组合，列的线性组合能够没有两个系数能够使这两个列的线性组合等于0，对吗？

就零空间就消失了。这是完全有可能了，就说认实际过程中。并不一定不是说零空间完全消失了，但还留意一点。就是零点。但是你可以想象，因为我这个没法画，这这个平面就没了，这零空间就消失掉了。这就是行。

这就是列满值矩阵的意思啊，相应的行满值矩阵什么意思？留位作业自己一想。对，就是无解了。不这时候就是AX等于0，只有零解，没有其他解了。😡，超平面那个地方，你先去用行势图去理解一下，咱们现在不提那个东西。

咱们在这里头只用向量构成的点的几何去理解。所以刚才有没有没听懂的时候，下来再看一看啊。因为我们还有后面还有一些东西，我们照顾到大多数人啊，咱们后面讲其实分解的时候，再把这个地方再稍微理解一下啊。

所以就说零空间有可能不存在。好了，咱们现在来看一下AX等于B的方程解，就是咱们现现代说书上不是经常讲什么其次非其次啊，然后搞一对一东西啊，哎我也搞不清楚，搞了那么多东西有啥用。

反正我也我觉得其实理解用子空间就很好的理解了。

说如果AX等于B，如果有唯一解的话，假如说有解的话，先说有解的情况下，那么你这个B是不是一定要在A的？列子空间内。

就刚刚才想一下那个平面。这里。😊。

哎，跑哪去了？

啊。站。

如果有解这个B一定要躺在这个子空间内，对吧？那么有可能没解啊，那B它不在这个子空间内，当然就没解了呗，不很简单了吗？如果有解。

B在子空间内，如果无解，B就不在你一个子空间内。

但是有可能这个解它有多种多数多多种，这种就就很很很正常。如果正好有唯一解的时候，那么我们这个零空间的尾数就是0。因为有无穷多个解的时候呢，它的这个零空间的尾数呢就大于0。

实实际上啥意思啊？我给大家举一下，你比如说像这种。

像这个向量，这个如果AX等于B，因为它有很多荣余的列，大家看到了吗？很多冗余的列，因为这个矩线制指N是2啊，它就有两个线性无关的向量，你现在又加了一些线性无关的向量进来啊，线性相加进去当然线性相关了。

那你这个AX等于B当然有无穷多个解了。因为我后面这些向量都可以任意取了。对吧所以说满制的时候也正好是个方阵，用满制的时候，AX等于B当然只有一个解。但是我又后面又加了一些东西，乱七八糟的。

就相当于溶余的东西。我们AX等于B呢就无穷多个解。

无解无穷多的解唯解我给大家解释了。那么如果有解解的形式是什么样子的？是一个特解，加上一个零空间的解。那么可以这样认为，为什么加上零空间的解呢？因为刚才所说了AX等于0。X里面的零空间就构成了一个解。

所有的这些零空间，就比如说找到两个基，这些两个积的任意的线性组合，对吧？它就构成了这个零空间。那么这时候X的认可里一个向量都可以由这个零空间里面这两个向量做线性组合表示呗。所以AX就等于0。

所以为什么就这头我来给大家再解释一下AX啊。就等于对吧？A的P加VAP等于什么？BAV等于什么0。这里要尾数什么呢？就是就是积的个数，就子空间的积的个数。我们在这里头所说的尾数。

子空间的尾数就是里面的积积，实际上就是最大的那个基啊，我们就是一组机里面线性无关的向量的个数。V是什么向量？V是一个零空间里面的向量。所以AX等于0啊，B加0等于0啊。

所以任何一个解就可以用这种形式来表示，对吧？这零空间就有这个用啊，怎么没用啊？零够你只要知道了零空间的积。我马上就可以知道这个方程的解。有没有问题？这里。

好，没有问题，我们就往下下走啊。好了，咱们先现在脑子里首先大致有一幅图，就是这个矩阵A啊，它有四个子空间是吧？他们这些四个子空间是怎么排列的，我们后面再再来去想一想。

但是这时候我们要把这个矩阵要分类一下了。因为咱们刚才看的这个矩阵，它实际上是任意的是吧？

就是这特殊情况我们都不光包含，就反正这个矩阵就又是胖的，又是长的了，又有可能是方的了。我们现在研究一类特别的矩阵，就是方阵。P是子空间的向量，不P是一个特解，它不是子空间的向量。P是一个特解，V是通解。

这个V在零空间内。

明白吧？

人工智能—机器学习中的数学（七月在线出品） - P11：随机梯度下降算法综述 - 七月在线-julyedu - BV1Vo4y1o7t1

今天是。咱们论文公开课第一课我们。那个已经筹划很久了，就是我们有一个7月在线，有一个论文翻译组，我们一直在翻译一些最新的或者是比较经典的文章嗯。

我们希望将来能够把这些文章呢一方面是翻译好的文本给大家比较方便看。另一方面呢就是我们希望能够通过这种论文公开课或者将来论文课的形式嗯给大家讲解，然后。

让大家更加方便的去接接触到这些就是呃机器学习或者是人工智能这些呃比较前沿的比较新的知识。因为现在这个领域发展还是非常快。嗯。就是我们可能。比较实用的呢还是都是一些最近写的文章，最近发表的一些工作。

那今天这篇文章呢第一篇文章呃，这个文章它并不是一个研究型的论文，它是一个呃综述性的论文。就是他把以前的一些工作呢，他给总结了一下嗯。这个总结什么东西呢？就是说随机梯度下降法的一些不同的变种。

我们知道嗯在机器学习或者是这个。统计学里面很多时候我们做工作呢是是分两个部分。第一部分呢是建立模型就是。啊，建立模型这部分呢，你可能需要很多需要一些具体的知识，专业的知识。

或者现在机器学习里可能你这个呃专业知识需要的没有那么多，但是你也需要建立一些东西。比如说呃你同样是深度学习，你可以做语音，可以做视频，可以做什么么，对吧？不一样，你建立模型以后呢，你就要训练你的模型。

训练的过程中呢。通常而言，你就是需你就是需要这个定义一个。损失函数或者是一个目标函数啊，损失函数呢，一般你就要把它给最小化。目标函数你可能需要最大化，总之是一个优化的问题。优化的问题呢。

我们其实也开了一些班讲过一些关于优化的主题。但是呃基本的原理就是我们现在用的比较多的都是用把把这个优化的这个损失函数看成是一个呃可谓的函数。然后我们采取用这个梯度下降法这样的做法。

所以这个方法呢其实是最简单的。🤧就是说。😊，这方法呢其实最简单的，但但现在看起来呢也是目前而言比较实用。大家这个呃刚才有同学问到这个关于视频的问题啊，这视频的话呃，你打开那个群群的右右边有一个群视频。

你点击就可以进入。然后现在的这个我们不支持麦克的群视频，QQ不支持麦克视。所以你可能如果有m克的同学，你就得或者找一个windows机器或者是嗯。用手记好是可以的。好。我们看今天这篇文章的这个。啊。

具体是什么文章？这个具体文章是呃这个作者。还有名字我也不太会读seine不知道啊，这个作者呢他在他写的他写的一个综枢性的，就是把随机梯度下降法的各种变种总结了一下啊，给大家分析了一下它的原理。

然后各个方法的优劣性，为什么要做这种方法，这个文章写的还是非常好，非常清楚。这很有用，我觉得可以作为一个工具类型的文章，你把它存在你电脑里。然后当你需要用的时候呢，你可以查一下。

然后我们这里会给他做一个更。啊，直观一点呢跟这个总结性的给大家介绍一下。那这个这个文章我们7月在线的翻译组也翻译了。大家有那个课件的话，你点击这个主题，就标题，你可以看到这个文章的呃，应该是原来的。

就是原版的文章在arack上发表那个文章的链接。然后点击这个下面的7月在线翻译组，你就可以看到我翻译的那个结果是一个英汉会译的一个一个文章，我也把那个结果发到咱们的群里面。大然大家也可以直接下载。好。

那这个文章它主要的内容是什么呢？主要结构呢？内容呢我们说了两遍了啊，就是说这个文章旨在为读者提供不同的算法的原理，以及这个效果的直观展示，希望读者能能够在实际问题中更合理的选用这个梯度下降类的算法。

那作者提到过，就是说因为现在呃。在他写这个文章之前呢，我们没有一个系统性的去介绍各种不同的梯度类梯度下降类算法的优劣性。然后原理的文章。所以大家呢总是你得需要在文献里找，有可能你知道这个算法。

你不要那个算法，然后真正用的时候呢。就把这些东西当成黑箱来用，因为也也不是很清楚到底该用哪一个对吧？这个很讨厌。因为其实当时作者们他们就是。发明这些不同的算法的时候，还是各有目的的。呃。

如果大家能清楚一点的话，你使用的时候可以更有针对性一些。违章结构就是说。分为6个章节啊，第一节呢就是非常简单，就介绍一下什么叫梯度下降卡啊，我们大概也是follow它这个呃文章的这个结构。

就是因为它的结构本身也非常清楚啊。第二节呢就是说啊从梯度向降法出发。为了解决他的一些问题，然后又发明了这个随机提速下应，那他还是会有一些问题。在第三节做个总结。那第四节就是这个文章的主要内容。

就是说他把这个几种不同的方法都列出来。然后呢，他们都针对于第三节讲的那些问题和挑战，就是每一个算法提出出来是为了解决什么问题，就是写的写的比较清楚。然后第五第六节呢，第五节它是一个介绍。

就是说因为算法是一方面了。但是你具体实现的时候，我们现在很多东西做计算都是用背景计算或者分布式架构。它当然就是他介绍了一下，说历史上我们都有呃提出过哪一些可以可行的架构啊，包括现在也可以用。嗯。

最后一节呢，他就是说从其他的角度来看，就是不是从这个算法角度来看，就是。从其他角度来看，说是不是还能够有一些办法去呃优化一下气度下降。是这样。嗯，大家有关于这个视频的问题啊。

就是那个如果大家现在看不了视频的话啊，我们也在录屏啊，等到那个结束之后，我想我们应该是可以回放。好，那我们。就正式开始之前，大家有什么问题吗？还有什么关于这个。学术的问题。

或者包括如果要说你大家觉得我说话太快，或者说话太慢之类的，也都可以提醒我一下，然后我可以调整一下我节奏。啊，有同学问这个是不是最基础的啊，这个基本上是比较基础了。这个文章写的还是很清楚，就是大家只要。

我想只要微积分比较熟悉的话，应该都可以看。只不过。就是说首先它是英文的，然后然后我们翻译了一下就会好一些了。然后嗯大家同学可能。就是要如果同学读文章读的比较少的话呢，可能会对这些所谓的论文有一点恐惧感。

其实大家不要有恐惧感的论文，它就是。就也是研究型的文章嘛，就想解决一些问题。只要你把那个核心抓住了，就做完嗯。🤧还是还是很还是很很容易看。呃。关于他这个提度这个方法，在深度学习中的应用啊。

这个在本文中没有仔细的设计，但是呃我们可以看到一点说就整个这套系统呢，它为什么要这样做？其实多少跟我们在应在这个机器学习中的应用是有关系的啊，等会大家可我会看到一些。🤧好。然，我们就。开始正式内容了啊。

第一节我们简介一下。比是说什么叫做梯度下降？也就是说。我们刚才提到了，就是说我们在训练模型的时候。平时可能。就是我们在训练这个模型的时候。经常会涉到一个损失函数，比如说这个JC塔。这个非常呢。

就是这个模型的参数，它有好多好多参数。那J呢就是说那个模型的损失函数。我们通常而言，希望调整这个参数，使得这个JC塔越小越好。那这个函这个函数是什么呢？那通常是根据的样本来的，就是说如果没有样本。

那你就不知道这模型参数应该是多少，也没啥条，对吧？就是说因为有有的样本就是有个X大X。JX对的，它是根据你的样本得到的一个函数，然后你希望把它最小化。最好化的时候呢呃一个最简单的办法就是说你在。

这个任何一个点处，对这个函数进行一个线性逼进啊。这横字标是C塔。纵坐标呢是是这个J西塔，对吧？你的任何一点出的最后做一个逼近。线性基金。就是说我们求一些导数就做线性的径对吧？呃，如果西塔是多元函数呢。

这个地方就是dael塔西塔是个向量啊，求求转制乘以这个记度。所以说你做线性毕之后就能明白一件事儿。就这个函数啊，它是往哪个方向是增加的，往哪个方向是减小。就我们意愿函数是这个。

那如果你知道哪个方向减小了，其实通常而言，这个增加的方向就是梯度方向，这个梯度方。然后另外一方向呢就是减少。所以我们。😊，怎么做这个呃下降法，怎么去寻找这个呃函数绩效值呢？就是说我们从一个点出发。

我们从这个点减去它这个梯度的某一个。倍数这个倍数呢我们就叫做学习率。就你想这个倍数越大的话，你这个走的步度就越远，就这个题度正常，你的倍数不等于一，那下一个随塔。这夏令。其大一就放这了，对吧？

你在此处再做一个这个。就是。进直接决定。下去二根跑这来了。啊，跑这来了，过头了对吧？你再做一个清请明点你回来了。他算这来，总之你就是不断的做这种事情，最后你就1。1点接近于你的这个局部的绩效指点。嗯。

所以说这个东西呢它基本上就有两个步骤。第一个步骤做线性B近，就是算求出这个梯度这个向量把它算出。第二个步骤就是你要选一个比较合适的。不长，或者我们现在叫学习率。来进行你的这个拆除更新。这两步。

第一步是计算，第二步是选择这个学习率。所以说呢。他这个方法的做法和它的困难通常是相结合的，你有一方法你有一些手段，你的困难通常也是从你这些手段里出来的，就是通常任何一个东西都是双刃剑，所它困难哪来的呢？

第一个困难就是提速的计算。就是说啊我们机器学习和统计呃参数估计问题中，这目标函数通常是这种求和的形式。就是我们这个上面写出来的，就是跟我们说了，你这个函数怎么确定出来，它是通过一个样本。

一大堆样本来确定这我们通常这大XC的这东西啊，一般来讲。我们经常遇到的情况都是这样，它是一个对于每一个小样本，每一个样本你都可以算出1个JXIC。然后呢，最终的这个呃。呃，损失来说呢。

其实是你把这一堆东西加起来。通常都是这样。这种情况下，你想算左边这个函数的导数想求导。其实你就是对右右边这一堆函数挨个求导，让它加起。对吧就是说一般来讲，当你没有什么比较简简单的这个公式的时候呃。

对大部分函数你都得这么算，就是挨个算，右边就挨个求导的加起来。这件事情其实是非非常这个耗时耗力的，就是很费劲的。因为你那个样本太多了，通常我们现在呃数据比较大了。

你做一个样本就是几百万上千万或者甚至更多。那你每一算一次梯度，你得对上百万个东西求导，然后再加起来。或者更多啊就是这个事情非常耗时耗力，它使得你这个模型的这个训练呢。比较缓慢。谢谢。所以这是第一个问题。

提这个。记不下来了。第二个问题呢，我看同学也有问到说学习率怎么选择。你怎么才能找到一个合适的学习率呢？多少合适，就这个问题呢。如果你只用现在这种方法的话，基本上没有什么好办法。你只能是具体问题。

具体分析。就是说你。你先弄一个试试，你看它收不收敛。如果学习率一般太大的话，那就不收敛。好，那干是看就是。比如说你刚才有个问题啊。如果你的学习力很大，你从4。0出发，一跑跨跑这来了。是吧，下一回这来。

然后下一厨话，你跑他回这来。Okay。就是你感觉就震荡震荡震荡，总是停下来，你这没办法收敛，对吧？那你要学习力选太小了，你每一步都走的太太近太近。那你这个本身都说了，前面算梯度都很费劲了。

你要是算一次梯度还走不多远，不是就很很不划算嘛，所以很不经济，对吧？所以说这个问题呢，学习率的选择就变成了一个需要具体问题具体分析的事儿了。那这个很讨厌。因为我们你做这个机器学习或者人工智能。

你是希望你尽量人少参与，对吧？你希望让机器做更多的事情。你现在这个事儿你还得具体问题具体分析。你还得看那个训练的结果，然后再去调整学习率啊，这个过程就比较讨厌，而且你这个学习率选的太小了。还有一个问题。

就是有的时候你弄么好被噪音给误导了，可能这地方有小噪音。你学习太小了，你跳过去，那也是也是很讨厌的，总之就是。这两个问题，那这两个问题怎么解决呢？第一个问题。啊，就是。

随机吸度下压就这个随所谓随机吸数下压法主要就是为了解决刚才第一个问题。关于梯度计算就梯度计算呢。太太太太慢了，太费劲了，因为样本太大号，所以怎么办呢？样本大吗？不是那你把它缩小一点，对吧？

最极端的做法就是什么？就是每次计算题度的时候，你只使用其中一个样本。去做计算。你刚才看到了，我们这个梯度其实是。算这一堆样本的那个呃就这一堆函数的那个TO对加起来，对吧？有可能会除一个什么东西。

成一常乘为常数。就说。😊，他第一个方法什么呢？就是你只检出其中一个。假设你这个样你这个整个样本。整个样本集合啊只有一个样本。把这一个梯度算出来，那他肯定跟那个整体的这个梯度是不一样的，但是不要紧。

反正就是。嗯。🤧嗯。它虽然跟整体不一样，但是因为你要算很多次嘛。呃这次你用这个，下次你用那个啊，加一块儿，可能大家也就做用到了，对吧？那。每一次只用一个样本这样的好处是什么呢？就是刚才你这个样本里边啊。

好多其实XI之间它是类似。因为可能你嗯你这个问题本身嗯。你在XY出现次数就是那个密度概率密度比较大的地方了。那XY出现的频率也比较高。那你在这个很类似的XY上，你都要重复计算这个函数的题度。

然后你还得把它做个平均，你平均完之后又回去了，对吧？那就没意思，就是你就做了很多的冗余的计算。他这种做法好处是什么呢？因为你每次只算一个，那你就避免了这种容易计算，对吧？比如说X1和X2也得很近。

你这次只用X一没有用X2，你算出来这个，其实你就你就少了一个计算，对吧？但这个。缺点是什么呢？就是说。你这每做一次计算他这个。就是你X一可能代表X1这个特性。X2代表X2这些特性。你每做一次计算呢。

你都等于是选了一个很特殊的样本做的。所以它的这个稳定性比较差。所它这个呃你算什么梯度啊，它一会往左指，一会往右指，整体上比如说你其实你实盈量往前指，对吧？但是你这个X一可能往左往左前放指。

X2往右前放止，整体上是往前的。但你这个就震荡比较大。可能X3还有后置啊，这都有可能。所以说。缺他缺点是这个呃震荡比较厉害，但震荡比较厉害这件事吧，它本身也不完全缺点。他也有一些优点。

就是说他增加了你跳出当前的局部制要值的潜力。比是说嗯。像现在这个问题，我们这个例子里边。我们从这出发，通常而言，以前的方法，你基本上呃步长选小一点，你就会缩敛到这个就不这个就不较值了。那可能这个函数呢。

在远处还有一个哎呀更低一点的局部交织，对吧？就看他们长这样。那如果要是你现在选的是这个随机需求下量吧，因为它震荡比较大，它这个。🤧就是说。还比较性格，所以有时候跳的比较远啊，那你从这点出发。

可能你咚的一下。就这。呃，然后你从这儿再走走走，然后又动了一下车这来了。然后再走走走走，就是他不见得真正能像咱们想的那么好，那可能还往反的方向调。那总归他会帮助你尝试各种不同的就会机会需。

这是有他这是多少有点好处，就他这种不稳定性的可能会给你带来一些好处。我们在这个最后一节呃讲到这个其他优化嗯。提呃提供商量法的这个方法当中，也会提到有些人这不但。

这个随机度这个这个这个不稳定性他还觉得不够，他还要再引入一些随机性，就也是为了这个目。然后我们也说了，就是说这个不稳定的时候，不稳定这个坏处是什么呢？就是说收敛了怎么转换了，我挑来挑去了，他怎么不回来。

对吧？那但是我们在实际应用当中，实际推点当中发现当你如果是把这学习率给它逐渐缩小。一开始你的学习率可能是0。1啊或者00点几的或者是一。然后你呢按步骤，你每每做一次，你就削削减一点。

每做一次你就削减一点。那这样呢你。用这种方法去做的话，这个随机梯度下降法的收敛速度其实跟之前这个正常的原始的这个梯度下降法，就是收敛速度也是相当的。

所以说这种方法呢缺点可以通过这种方式来避免优点还可以得到一些发挥。所以现在我们通常说这个在机器学习当中说的呃梯度下降法。那一般来讲都指的是。某一种随机记录下来，所这也是我们这个文章的标题，随机写录下来。

这个意思。那这个讲所所讲的随机呢，就基本上就是说因为你每次选的那个呃样本那个点都不确定啊吧，你就是你可能自己随便排了个序，然后呢。你可能还要进行一个随机排序，那这样它就引入了随机性。

呃你每次你你你今天做一次训练和明天做一次训练，结果可能是稍有不同。第三个是什么呢？就刚才我们说了，就是我们。之所以你每次只使用一个样本，主要是为了这个呃简化计算，先算的快点，对吧？那。

但是稳定性也比较差。第三个什么呢？就是。介于一和一和2之间那种办法，也就是说啊我每次不要只选一个样本，一个样本才觉得这个。太乱了啊，就是觉得。对。呃呃这个。就选一个的话。

你万一有一些这个非常大的这个outlier就是不好的点。可么能你不是很影响你自己，对吧？他想什么办法呢？那选一个小批量。就是说在你这个上上百万上千万的样本当中选出这个几十个。

把这几十个拿出来算一下这个题录，这也是很好算的。为什么呢？因为现在我们还是有很多的这个。啊，现成的这个优化的一些公寓啊，就是说你在这个尺度上算。这不一点也不比你刚才那个均一个样本慢，呃。

这速度还是可以保障的。然后呢，他这个梯度计算还要更加稳定一些。就他。小批量它比那个单个的要稳定很多。嗯而且呢它比那个。呃，用全部的这个算法还快啊，而也他也比较有效，所以他也可以调。

他也可以达到一些这种目的。就是说多少的呃。可以找到一些旁边的这个更好的这个局构教育。这样所以说现在一般来讲，在神经网络去练的文献当中，当大家说到这个SGD的时候，就是这个随机梯速下降的时候。

其实它指的就是这个小批量随机提随机提速下降法，就叫mini batchSGD。这这这个就是一个呃语言上的一个问题了。就是历史上可能大家就是这么就把这前面这个mini batch给省掉。

所以大家看文章的时候呢，要注意，就他他说这个SGG的时候，其实他指读过时候指的是这个。好，大家有没有什么问题？在的位置。嗯，好的，那我们继续来啊。呃，同学问到说这个啊小批量怎么选？啊。

这个小批量呢一般来讲现在都是因为固定的数，就是啊文章里有提到，就是说现在可能一般是这个几十到几百之间啊，这个数字。也跟时间有关系，但是。这个数字的区别可不是特别大。你可以自己选。哎，有同学问说。

这个当你用小批量这个提出加减法的时候啊，不同小批量里的元素会重复嘛。嗯，我想一般的做法应该是不重复的。就是说他他把这个。整个样本。先给他分割位。就每一个小分割是一个小批啊，比如说比如说是100。

100个。那整个可能是比有10个6次。然后呢，你就得到了多少个呢？得到了1万个这个小批量。那1万个小批量，你就你做那个循环的时候啊，你就挨个小批量算，每一个小批量你算一个这个呃梯度，你更新一下参数。

算完之后不全算完了吗？1万次循环结束了，结束之后你再从头来。从头来的时候吧，啊这个时候还是多少有点技巧，就是说。你要把原来的这个。给他重新打乱一下。给他洗个牌，这个在我们最后一节我稍微介绍一下。

重新打重新打断一下，然后再给他分解分割成这个这1万个小。然后你再来一遍，就打乱的目的呢，就是说他不希望你这个。样本的顺序影响了你的训练的结果。因为可能你无意之中选了一个很特殊的顺序，这个顺序。

会对你的结果有影响。比如说打比方说吧，咱们这个前面说有的时候你做计算的时候，你要那个啊。你这个学习率可能是逐渐递减，那你递减这个事儿就就就很讨厌了，对吧？那你就意味着你对第一个小批量你是比较重视。

这最后一个呢你就相对没那么重视。那这样的话，你这个顺序就决定了你对谁重视，对谁不重视，那这个就不好。所以说你当第二次循环的时候，你要把这个啊。讨论一下，多少能挽回一些这个问题。呃。

然后我看同学们的问题啊。啊，关于小批量的这个数字是不是要在代码里面写死，我想是可以的。这个反正一般来讲不把这个。我知道的情况应该不把这个小Pon的这个大小当成是一个超参数。嗯，然后。还有同学说。

如果要是那个整个批量呃就小批量和样本总量不成正比，就是说你不能恰好分割的时候，剩下一家怎么办？因为不要紧，其实你就剩下几十个样本，你可以把它。就是。这个是比较灵活了。你比如说你剩下的这个。

比如这是最后你没有剩下100个成20个，20个怎么办，你把它放到前面来，重新打断之后再来一遍是吧。看了这个。然后有同学说还要解释一下那个我为什么认为小这个随机提速下降法，可以增加你跑到呃。

就跳出这个局不集绝的权力啊，就是说我刚才说到了，就是你。如果要是用全部样本算梯度的话，它是比较稳定的。它基本上是往那个真真真实的那个梯度最大那方向走。但如果你要是用那小批量的话，它噪音比较大。

就说白就是噪音。你你你每次只用一个样本，那个样本可能是一个。就是他可能有比较特殊的情况。那这个情况下他只是你。就走的比较远，就是从这个点出发跑哪去，没有正常的按照这个。

那你不就跑到旁边那个呃就是聚不聚这点去了。啊这种做法啊就是说他不见得给你好的结果，但他是给给了你产生好结果的可能性。然后呃还有说同学说这个数据打乱的问题啊，我说这个情况是把这个原始的数据打乱。

然后重新做一个分割。就是说你也不想保证这个每这些数据的一个培养，你希望他这个重新混合一下。然后呃。呃，这样问题啊。还有同学关关于这个收敛性的问题啊，就是说啊这个如果要是你噪音太大，当然有什么都不收敛。

所以这个提到啊，就是说随机方法，这个T肤加降法在逐渐缩小学习率的情况下，它的收敛收敛的这个性能就可以跟原来那个差不多了。就是说你的学习率越来越小。其实也就是说一开始的时候给你更多的自由度。

那以后呢一点点就把你这自由度给限限制住。嗯，对，就是说有同学问你说那个呃现在优化的举证工具，对，大概是有些是可以向量化。对，就是说呃因为你那个向量也不用太长了，你要是几百万那个向量。那可能也都算不了。

但是你要几十个向量，这样的话，现在我们呃计算的时候是可以统一处理的。比如说。读加法吧。你这个V1加上V2。那以前呢你得做个循环，挨个加加完之后，你再得出来。现在的话你啪一下就加过去了。

这个这个是在硬件里面实现，或者是。基本上讲对这个都。没法展开讲给我做。好，有同学说让我讲快点，我讲快点啊。😊，嗯。那么这个随机提出向上法，它是不是就什么问题就解决了？那它其实还是有很多很多这个困难。

就他主要的困难是什么呢？我们说了我们这个第一个问题是关于技术计算的。呃，这个主要由这个随机修构现代化来解决。那第二个问题是什么？就是学习率的学习率的选取。这个问题没有解决。

所以说这个问题呢也就构成了随机提数下降法的主要的。🤧那第一个。第一个不是这方面啊，第一个说的是你这个局部梯度方向的反方向，就是那个梯度下降法的方向。不见得是函数整体下降的方向。

这个在我们下面讲到这具体算法的时候，会给大家呃自己说一下，就主要对一个图像比较崎岖的那个山路比较崎岖的函数啊，就是说这个到处都有不同方向的下降。那可能。你认取一个点，他可能是因为这块石头比较高。

所以他旁边那个往往往往往左，他就有一个很大的这个梯路。那实际上你主要是往前走的那你往左的记路影响了你的这个。哎，你这个这个计算了，就是这是一个问题啊，就是尤其是对在对于这种隧道型的曲面。

就是你看那个隧道啊，在整体上是缓缓的下降的。但是这个隧道两侧呢这个弯弯的。那个题会也是很大的。就比如说你呃如果要是就是你想象中用的隧道，拿个球放在隧道里边。如果你放在隧道这个侧面。

而不是放放到这个隧道正中心正中心啊，你撒手那球其实是会在隧道两边来回震荡震荡震荡，不断震荡，然后再下降。这个震荡的过程并不是你想要的。你希望的是他沿着主要的方向走，对吧？这是一个问题。

第二个问题呢就是说学习学习率的问题。我们刚才说啊，你可以把这个学习率的衰减。啊，作为一个方法，就是说你让学习力越来越小啊，这样呢你这个算法基本上就越来越熟敛。那这种做法有一个问题。

就是你只能说先预定一个学习率的衰减过程。你说呃一开始是定一个数，一开始是0。1，然后呢，你呃经过100次迭代之后，你把它变成0。95，然后你再经过100次，对吧？变成0。9对吧？你可以你可以这样做。

那这样做缺点就是你这一个方法就得用在所有的训练的这个数据上的。你可能不同的数据，你想适应的是不同的这种衰减率去衰减方法。那你怎么才能够自动的对于每一个数据集，你拿过来之后，然后自动的去产生一种衰减。

就是表适应这个数据自身的衰减，而不是你一开始人工定的啊，这是一个问题。因为那样会更加智能一些啊，这个当你人工计这个跟你这个数据集不是很匹配的时候呢呃。嗯，那种自动的方法会好一些。第三个是。

就说啊我们现在这个做法还对所有参数都采取了同样的学求。这个看上去好像还行，那其实它是有问题的。就是说比如说你现在做的是一个。啊，关于这个。文本识别的问题啊，就是说你关于这个垃圾邮线的标记的问题。

那你的垃圾邮件标记啊，它有一些词语一旦出现，你基本上就确定它是垃圾邮件。但这些词语出现的词非常少啊，这就有可能。Oh。这个比如说呃大家都知道有一个什么。那么最终我国的网址的问题对吧？

呃大家都知道这个事儿，一旦出现这个网址，基本上你这个邮件就是垃圾邮件。啊，但是这种邮件可能大家一共也没收到过几封，对吧？如果你是现在想用你自己的这个邮件系统去训练一个垃圾邮件的识别器的话。

你这个网址这个词儿没出现过几次，那这个词的参数它的系数。就只能在这几次出现，就出现他的这几次里面做做训练。那这几次如果你恰好把它放到了这个一个后面。就你那个样本啊，比如说你放到这个比较后边的地方。

那学习率很小。你这当然训练的时候，你这个词儿一共出现这么几次，每次学习率都很小，你那个参数虽然不是零，但是也很小。你这个几乎在将来你做预测的时候，它用到你你参数太小的时候，你再做预测的时候。

它就等于是不存在，等于是0，对吧？所以那样做呢。对于你这个呃出现频率很少的这种feature。他的参数很公是很不公平。那个fish事明明很重要，但是呢由于他出现次太少了，然后你呃学习率又很低。

嗯也没训练出来。所以说呢当初据有这种稀疏性的时候，稀数性就是说有些参数出现的比较多，有些参数出现的比较少。在这种情况下，你希望对不同的特征采取不同的学习。你对于频繁出现一些特征，你就正常学习就行了。

你可以让学习率衰减，对吧？小一点，因为它不断出现嘛，你就不断的去去去适应，它去更新它。对于那些出现次度很少的那些特征，你就得采取比较高的学习率啊，那这种做法。也跟前面这个有重大问题，你新给你一个数据。

你哪知道哪个参数出现多，哪个参数出现少，对吧？你是不是就得让它自动的去识别哪些应该更进的更多，哪些应该更多精是，这也是个问题。那最后一个呢就是说在实际应用中发现这个神经网络训练中啊，你QQ加减法。

它不但是有这种局部犄较值的问题，但还有安点的问题。这说候我们知道。那个h审举战，他就是说局部教只说的是他这个。这汗山矩阵确实是个零矩阵啊，但是呢它局部上级较值整体好实。但是还有一什么情况呢？

就是那个你汗山矩阵呢，它。在某些方向上是定在某些方向上不是或者某些方向是否负定的，有些方向是正经的，有些方向上就这种情况下叫鞍点。那一个鞍点呢，它通常会就是在这鞍点附近，那看是非常的平坦。

就是我们我们画过那个马鞍面是吧？你们可能上大学的时候，大家都看到过这个。最简单的一点就是掌声了是吧。是啊，我这个给我给你1块，嗯。呃，同学们稍等一下，我这个笔好像。哎，这个还没有出现过。

我我我我刚才关掉下。OK。说。实分抱歉啊，刚才这个不知道为什么不能。🤧嗯。那么最常见的这个案点。就这个麻面。诶。我这个上大学的时候学习的画这个马面。Yeah。对，就发的。不是特别好。什么意思？哎。

这样的一个就是马鞍嘛，就是你做的那起码还是做那个马鞍对。这个点它其实就是一个安点。那这个点呢附近的这个区域。你看它沿着这个X方向，它是往里翘，沿着这个Y方向，它是往下凹的，但整体上这一片呢它都比较平。

所以说如果你那个参数训练的时候跑这儿来了，那就很难出去了。在这附近他就走不动了，对吧？那这也是个问题。所以比起这个局局部几小时来讲啊，这个安点更加可怕。

就是这些都是我们使用随机吸毒下降法时候容易遇到的困难。啊，对，有同学发了一个这个在呃群里面就是这个马鞍面就画的非常好。哼机械化。大家可以看一下，就是这这些都是我们这个呃随机提出下降法。

或者说一般来讲任何一个提速下降法都会存在的问题。那我们怎么去解决这些问题呢？这个事情就构成了我们今天这个课程主要的内容。这个文章第四节，他就列举了我们各种不同的这个随机提数加权法的变种。

来告诉我们这些方法是怎么去解决前数的这些问题。就当你的这个数据集。当你当你对你这个问研究问题呢肯定有一些了解啊，对吧？当你了解了你自己这个问题之后。

你知道前述这些哪些问题是对你来说是比较严重的那你就应该用这个特定的方法去克服它，对吧？所这是我们这个文章主要内容主要的主要的目的。🤧好。那不是说选取学习率吗？很多同学可能会有一疑问，为什么不用牛顿法？

牛润法。它就自动给你选取了一个类似于学习率的东西，对吧？它是什么呢？它是对你这个函数做了一个二级培训。整决问题。了解一下他的实质。就还是刚才那个样子吧。对。也写C常了。好，你对于这个函数。

还是刚才那个问题，从一个C塔零出发。我们说求一梯度的话，你都应该往左走，你不知道该走多远，所以会有学习力的问题。但是我们还有一个办法，就是说做一个二阶比线，我们在这个地方不用直线对他做笔线。

我们用一个抛物线对它做一个比。え？我们拟合一条抛物线，这条抛物线呢显然跟原来的函数不一样，但是呢有点小，就是我们二阶之线。所以抛向极要之点，我们把它作为。这个函数绩效值点的一个直径，C大一就在这儿。

那四大一这出发呢，你再做一个抛物线。哎，6得到几号时间，6是4。2。不断做这种事情，最后你就回到这个。这种方法叫做牛顿法，就当年牛顿。可能用这种方法来解这个呃近似解这个三次方程的就解那个呃。

对方能求根这种啊转读论用。那这种方法大家一看，哎，这很好，对吧？这个你从一点出发，你知道该走多远。你很清楚，给是刚好。那这个方法啊。在我们实际应用中有很多的问题。啊第一个问题。

就是我们现在做这个问题里边什么大数据啊，大数据有两个维度大，一个维度是那个样本点多，还有一个就是你的。特重。特征是什么呢？特征就是说你这个下边这个西塔的倍数，我们现在这个西塔写的是一维的，就为了简化嘛。

对吧？那实际上你这个西塔还没有成成百上千个，比如1000个。1000个函数啊就是1000个这个feature。那在这种情况下。你要求一个二级导数，那二级导数其实是一个指针。

对吧如果是你1000个样本的这个这个。呃，teachature的话没有矩阵就是100乘1000的。所以你需要算1个1000乘1000的矩阵，那就里面有100万个点，100万个数。

你每一次每一次做迭代的时候。不管你用多少样本，哪怕你用小批量的，你就用单个样本来算的，你都得。算一个呃1000乘1000的这个汉群指针。这件事情首先就是很难算。我们刚才说了，这本身计算就是个问题。

你要是那么算的话，那太费事了，对吧？那那你这个随机虚数向下法都拯救不了你了，对吧？就是你太矩阵就太大了，没办法，那那不行，存储都成问题。你可能内存从下，你要是太大的话，你反复的拿这么大的矩阵过来算。

你这存储都成问题。这是一个。第二个呢，就是说当你使用小批量的时候，比如说你使用单样本，你那个牛顿法对于二阶导数的估计噪音就太大。就是本身一阶导数估计它就有噪音。你的高这个接触越高，那个噪音就越大。

就越就就越容易是错。这个就就也不符合我们现在应用的一个需求。🤧那最后一个呢。就是说当你这个目标还是不是凸函数的时候，顶牛顿法还是非常脆。顶牛顿法其实它是找什么的呢？它不是在找那个。就正常的盾法。

它并不是在找极少之点，它其实是在找安点。或者说是在找这个局部极制点，应该说是所以找的是局部极制点，它非常容易被这个极大窒吸引。比如你从这出画的话，它就画出一个这样的。二曲线。

然后你选我们牛顿法一般都选这个二曲线的那个基值点，那极值点就跑出来了。所以你其实这方法就在找那个极大值点，对吧？那还有就是这个意味的状态不太好看，就是高维情况下，这个牛顿法非常容易把你拧到那个安点上去。

就刚我们说这个安点。他就是在找这种题。那你这样的话，我们现在研究的这个。问题啊就是我们这个神经网络训练里边，就是这网络训练里边，经常你这个函数都不是图的，都不是图函数，我们都不指望去找那个全局绩效值。

那个太难了。我们就说你最起码得给找个局部绩交值。但牛德法呢很容易把你给弄到单点上去。那你弄哪点，这就就最讨厌，所以我们不喜欢，对吧？所以由于这种种的原因呢，我们在实际应用中，当你这个在大数据处理的时候。

就为数大数据点多啊，然后你这个优飞wo的时候，我们通常就不使用这个顿法。所以这个方法我们在此不做讨论啊。呃，关于。同学说的这个。遗传网络移群算法，这些我就不是很了解了，这个就不给大家介绍。

然后说为什么会引到安点？那这个呃我刚才说啊，就这个我们具体要是算的话。这可能有点占时间了。但是我大概就是说就是说顶牛顿法他主要是在找那个哪个地方最平坦，就是他在做这件事，就你看你做一个二阶B信。

然后你就找那个二阶B信最平坦的那个点，你就让你就你就你就往那走，对吧？如果你要有安点的话。那个首先理顿法它不区分那个极大还是极小。你的安点呢，比如在这个马面这了，你的按点呢，你在这个方向。

它这个点是价值，在这个方向呢，这个点是极小值。如果在这个附近触发的话，你牛顿法就会把安钮。因为你从极大值角度说，他也能往哪走。从极小的角角度说，他也能往哪走，就是这个意思。呃。

二级老师的几何解释呢就是这个曲率。就所以你的办法其实在帮你寻找这个。我想应该是。高是曲率比较小的地方。那不对不对，说错了，就说二级小时取例，有办法还是再帮你找那个比较平坦的地方。他曲例只是它中间那部。

好，还有没有其他的问题？噪音大。大家有同学问说，为什么说这个？二阶导数估计的噪音太大，就是说。Oh。就说啊。比如说你用牛顿法的时候，那牛顿法的公式我给大家稍微写一下。为什么说这个造型非常讨厌？

C塔一等于C塔0。减去这个。M here在哪里？3 haveQQ。就大概这么式子。这个胰岛素啊它放在身子，胰岛素啊还是放在身子。你这个东西噪音大了之后，它导致你这个数变化特别大。

就是你这个呃就比如说他从在零的分间在大，就是说如果说他从一个比如说0。1。由于有有到一变成0。5话，你这个上面把盘是放大两倍，对吧？就是说。或者说如果要是嗯这个在零的附近震荡呢，你就是说你不动就完了。

你这个下面如果在零的附近震荡，你就可能会导致上面这个呃变化极大，对吧？嗯，明白我意思吧？所以说这个二级老师的噪音呢，对你这个模型训练影响非常大。好，还有没有其他的问题？好，然后那个关于呃几何的问题啊。

就是说马鞍点的问题，他就是说在一个方向上它是这个极小值，另一个方向上它是极大值。这样一点。没那们继说啊。来介绍这个。文章中我提到的。实际呃应用当中，我们比较常用去解决刚才提到的一些问题的一些方法。好。

第一个问哈。都亮了。这个方法非常的直观，它适用于什么呢？适用于解决我们刚才提到的第一个问题。第一个问题什么忘掉啊，就局部梯度的方向啊，这个这反方向不见得是函数整体下降的方向。

我给大家稍微说一下这个什么情况下比较适应的题度。在说什么事呢？是。擦一个黑板。Oh。哎，有些这样的。比如说你这个。曲面啊，就不不画那坐标坐标轴了。你这个函数的图像是个曲面。开这去。嗯。

就像一个竹筒饭一样，就竹筒是吧？是吧？就是竹筒饭，那斜着放在这。这个时候呢。比如说你要选点选的这儿。它其实沿着这个向竹筒中心的方向，这个方向梯度很大，就这个斜度很大。所以说你算出来个梯度呢。

其实是一个斜着既有这个方向的梯度，又有这个方向。而且这个垂直于竹筒的方向力就会会会非常大。因为你竹筒是一个很细的。对吧这种。所以它是一个这个方向走。所以你用虚求想量法呢，你就会往。

垂直于主筒方向走比较多，沿着竹筒方向走嘛，也走了一点，走的多，你往这个方。你这走走走哪去了呢？你通常而言，因为这腿很大，对吧？这个总孔总很能很细，他就会跳到对面去。第二呢再做吸的时候呢，他往回走。

他也是。既偏向下一点。但是呢用偏向这方这这方面一些。这样走，然后他这个因为他这个垂直方向比较比较比较陡嘛，走的比较多，噔了一下又跑这边。所以最终结果就是你反复的这个点。反复的在这个竹筒两边这样做。

震荡震荡震荡知道吧？他也回来了也下来了，但是呢他在震荡下。这些震荡的过程就浪费了你的时间。因为每一步你在这个主体方向上走的很少，在这个垂直方向上反正做的很多，这是什么造成呢？就是因为你这个。

垂直方向上有这个不是很平坦啊这个。造造成这个问题，这个这种情况就是我们刚才说第一个问题。当你这个这个曲线这个曲面啊它比较崎岖的时候，你会。就是会浪费你很多时间，让你的手两边半，对吧？动量法是说什么呢？

多样法就是说你假设你丢下去这个东西这重量是很大的。你的物理上小，它质量很大。它也会这样震荡，但是因为量大呀，它会积累一个在这个方向上。因为这个方向上一直下降的，在这个方向上会积累一个速度。

那个速度会越来越大。但在垂直方向上呢，因为它一会儿往左是一会儿往右。那这个就导致他这个呃呃就是一会儿受向左的力，一会儿受向右的力，那导致他这个在垂直方向上呢，这速度积累不起来，他都看他做这个消除掉。

所以他会在垂直方向上这个速度。基本上保持一个稳定的程度，就是说在做那个中摆运动，对吧？在。顺着这坡的方向，它的速度会越来越快。所以在当你这球比较大的时候，它就不会像这样这样频繁震动，它会变成什么呢？

它也会震动。他变成。一开始的时候这种足播还比较大，上学了啊回来了。然后这个就会越来越。就是大家如果要是有生活经验的话，你去这个扔一个球在这种读筒上就发现。那后面呢。就一开始震动频率可能比较大。

后面的震动这个震动频率啊就会越来小。这是主体上还是沿着这个。大大方向的下降。那在我们这个。我画的这个是立体图，如果你看的是一个等高线的话呢。大家就可以看到，嗯普通的方法它会在这两边来回震荡。

来回震荡走的比较慢。这个加入动量之后呢，它一开始震荡呢也是一样的，都是走中沿着震荡一次对吧？震荡一次。那后面呢它这个震荡就会啊越来越越来越少，在主体上就会沿着这个方向。这手量也会更快一些。

这怎么去实现这个物理的现象？这这我们讲的这是一个物理的模型。我你这个球如果没有重量的话，它震荡比较厉害，如果重量比较大呢，震荡呢就会比较小，会比较满足我们的要求，对吧？那怎么去实现这件事。

对于物理上说这实现这件事怎么实现的呢？就是说它这个球是有惯性的，所谓质量其实是惯性。他的惯性决定他之前那个速度会得到一定程度的保持。对吧如果你有空气阻力的话，之前的速度会被削弱一些。那如果没有阻力的话。

你这个速度会得到一定的保持。所谓得到一定宝持，就是你在这点处，他的梯度要求你往某一方向走。但是呢你得用你之前的速度加上你这个梯度所要求你的变化，才是你下一步的。啊，这个是有重量的，就是如果你有重量的话。

他会是这样这样做的。物理上是这样做的那我们怎么去模拟这件事情，怎么去实现呢？就是这样。我们呢。一般来讲，之前的那个参数更新啊是西塔系等于西塔T减一减去一个梯度就就完了或乘一个一产就完了。现在呢。

我们还是要减去一个东西。那这个东西啊它不但由以塔这个梯度来仪塔和梯度来决定，它还有上一步你的速度来决定。这个B就是速度。在T这一步的速度，由上一步的速度乘以一个削减还削减的系数。

这个系数可能是呃你可以取0。9啊，就是说你假设有一些空气阻力。加上么呢？加上这一步应该改变的那个。这个是就是这点出来听。这样你就既保持之前的那个速度，又加入了你新进的这个情况。所以这种更新的方式呢。

它就更像是你扔了一个铁球在闪上。它它有一定惯性，它可以保持刚才的一些速度，然后形成一个新的速度。你用这个速度进行对它进行更新，你就得到了一个叫动量法的。是这个为什么动量法呢？就是那物理模型就是。

由于这个铁球有动量，它会保持保持一定的速度。这种方法就可以一定程度上改善我们这个嗯算法，在这种崎岖的路面上的表现。好，大家有没有什么问题？对于这东阳，我觉得这个方法呢还是一个非常直观。

然后啊想法很巧妙的一个。有同学说那个声音不好啊，好像是是不是你自己的那边网络不是很好之类的。好。那这个哎这个方法看上起来还是不错的啊，就是我们呃物理上很直观。然后在这个数学上呢也很容易实现。

那就这就你稍微把这改一下就行了。这地方不要解示那个梯度，把这个题就是做多多做一步这个计算对吧。这个是不错的那他有没有什么不好的地方？大家有没有看到他有些不好？他有一个非常不好的地方，就是啊。

他会不断的积累在这个所谓主体方向上的素质。那如果要是你退到山底了怎么办？就是你把一个铁球推下山。你想让他尽快到山顶，那这个铁这种做法。他最大的问题就在于那个铁球到了山顶之后，还停下来。

他又在旁边那山头上手，对吧？就变什么样。就他一个重要的问题。先对就这样就动向法的一重要问题就是说从山顶推一个球下去，他的球会滚的越来越快。到了山顶之后，它就停下来，就是就是这样。比如说你这个山是照型。

在这个方向上是主体的下展方向，在旁边呢还有一些奇岖的东西，对吧？然后呢，我们用了一个铁球啊推。然后因为我们用了多量法，所以它避免了这两边震荡，它就基本上直直的的掉下。这个时候他速度越来越快越来越快。

你到这儿的时候他没停下来。在上。对，这个是重量化的一个问题。你上去了之后，你半天停下来了，然后你就还得回来，就来没在这儿震荡，你跑这儿震荡来了，对吧？你还是个问题，还是收敛很快，这还是不影响你收敛。

所以说啊。怎么样才能让你这个算法有一些先见之明？对吧让他。快到达底部之前，自己就刹车减速啊，这是一个很意思。如果能这个算法能做到这一点，是不是就会好一些？所以说。就有这个人提出了一个改进的做法就是。

这个。那曹豆我我猜可能应该这么多啊，你可能是一个俄国人，他对动量法做一个改进算法是什么呢？他说呀刚才不是说你走到每一步的时候，你在这一步你算一个梯度，你再加上刚才保留的那个速度，你用那个速度进行下降。

对吧？他说你不要在本处做做梯度，你你你已经知道你现在在这个点出来。你你因为你知道你要保留一个速度，所以你先到你。就你知道你保留速度，你就先不算那梯度，你先到。假设你这梯度是零。

你下一步应该到哪去那个点去。你到那儿算一个题度。把这哥。就说我现在这个问题吧。第一步的时候。我们知道他在这儿，然后他希望提问你发出来是吧？这这是这个。30。这个是4加一。第二步的时候呢。

一般让你再下一直算一个梯度，你就加上刚才那个速度，然后就加速了，对吧？但他说你不要这样做，你先你已经知道你会沿着刚才那个方向走的。你如果你要是现在你不算题速的话。

下一步你肯定会放在这儿叫做西塔2一撇这个位置。就跟刚才有一样多嘛，对吧？坐这来。你想想看你即将要到达那个位置，它是不是已经不是下降的股牌了，反正你肯定要跑哪跑哪去了对吧？那。你在这个点出算个题。啊。

你你发现这点题度确实少很多，对不对？所以你把它在跟之前那个叠加的时候，你就产生了一个刹车的效果。我为从C塔2再出发的时候呢，你这个如果你什么都不做，你四大三应该在这里。这个点呢，其实他提实已经往回走了。

对吧？所以。你在这点算，而不是在4。2处算，你就得到一些先见知明。你就说你。在铁球往下滚的过程中，他往前看了一眼，他看前面啊，如果要是有东西挡住他了，他就。首先上一说。他能往前看多远呢，他也看不了太远。

他只能看到自己当前那个速度下，他下一步应该走到哪，就他。预判了一下，所以他先见之明，就预判一下他下一步的位置，在那个位置上，他应该往哪边偏，他预先先偏一点，这样的话呢他就避免了。

撞在墙上或者是撞在山坡上回不来的。Okay对。🤧所以说。😊，我们在这个地方有一个图示，这个这个是其实是那个呃painton的一个呃lecture里面的图示。在文章里边你可以有链接，你点啊。嗯。

是是吧从这点出发。他有一个呃。就是说它有一个原始的这个最长长的这条缆线，是原始的那保留的那个速度。这个方向量呢是此数它算出来的那个梯度。如果要是你在此处算梯度，再加上原始保留的速度。

你就这个点应该跑哪去跑这儿来，对吧？现在他不这样做，他先假定你先沿着原来那个原始题图走到一个距离，走这来。你在此处算一个梯度，往这个方向走。然后呢。这两项的价钱经到这了。用这种方式调整，你看这个什么呢？

就是你往这个方向走啊，这有一个这个红色梯度，说明你这个曲面是往。往这个左侧开始移了，对吧？所以他预判了一下，你的群面往左侧移，我不往那个商坡上跑，我就。喂。那再下一步呢。他在此处知道自己要保持刚才这个。

这个绿色的线这个方向我要走，对吧？他知道我要保要保持的，保持那么远。然后呢，我不在此处算他当前的梯度，我先预判我我大概是要好的这序，我在这点处算一个梯度。

所以说我真正移动的方向是你看这点处它已经开始往回走了，就就刹车了，对吧？那就这。你再往后走，可能刹车更厉害，最后这个受敛。如果你要不做这种事情，他啪跑到左边的山坡来去了。

然后等会儿又跑右边右边的山坡去行，那最重要的是到最低点的时候，它它冲出去，对吧？所以这个就是改动的地方，就是说推一个铁球下山，那跑太快怎么办？你为了避免这个问题？你就这个啊。让他预判一下。

看看前方是不是有墙啊，要串上去这个意思。然后具体实现呢啊也很简单，什么叫预判呢？就是说。刚才不是说VT等于前面那个VT减一乘性伽马，加上此数的梯度嘛，他说不要这样，他说我不在此处算梯度。

我只需要把这里边的函数改一下，改成此数减去一个，你看伽马VT减1。这个东西就是你保留的那个速度，你用此处的位置。沿着保留那个速走一点啊，然后在那个地方再提度，你再做一下这个参数更西就得到这个目标。

就计算起来永然是非常简单。好，这个这个改进的方法，大家有没有什么问题？啊，有同学问说是前两部都有关系吗？这个我没有看懂这这个是什么意思？是哪个前两部。She。然后前面还有问同学问这个呃。

就大概是多样法案例啊，这个速度对应到机器学习中的是哪个材量，呃速度呢对应的是这个V啊。就是说你那个参数更新的那个步伐。啊，大家对这个第二个算法有没什么问题？这个比前面那个稍微的复杂了一点。

但是你先从物理上去理解的话，大概你可以理解的好一些。呃，在我们这个问题当中，这个速度呢，它并不是学习率啊，同学问说这个速度是不是学习率，这个这个一塔这个是学习率。这个速度呢其实是你每一步走的这个距离。

就是呃因为我们这个你你我们假定这时间是均匀分步就均匀的向前的。每次比如说前前一点。然后那你每一次走的距离除以你这个均匀的这个时间，它就是速度。学习率你可以理解成是一个。呃，就是你推那几个下升啊。

就是说他。应该走东么业，但是由于某种这个摩擦力或者什么东西，他没有让你走东业，就是这个你实际走的和你应该走的这个差，这个这个做一个商那个东西大概是你学习率。呃，同学说。问你说这个V是不是学习率。

我我们说到了，这个V不是学习率，这个e塔这个e塔是学习率啊。好，然后还有同学让这个希望能把这个公式再仔细讲一下，就是我们这个公式啊，你就是自己看的时候也是这样，你对比一下。因为我说的这个方法。

动量法的这个改进算法，所以你要做什么呢？你要把它跟前面的多少进行对比。这公式里边。就是VT是VT减1乘以伽马，这伽马是一个你可以小一的一个数，或者等于也行。加上后边这个。依卡乘以它的梯度对吧？

是在当前这个点处算出来的梯度，你。这个方法呢呢只有一个区一个区别，就这不一样。他不是在当前这点算去提度，他是在。其实他沿着那个上次更新的那个方向走了一步，然后再算题。这就是这这一步就是他的先见之明。

他先往前看一眼，就他没走这步，先往前看了一眼，那看看前面。如果我走到那儿的话，我应该怎么动。然后我就预须按照那个地方开始动。是这个意思。啊，对，有学学问说这个地方为什么减法？因为我们这个梯度向降法啊。

你看我们主体的公式也是一样的，就参数更新呢是用当前参数减去梯度。我们要往梯度方向是函数增加最快的方向。我们要往还数这个减减小最快的方向走，这是减。好，大家还有没有别的问题？

有同学问这样和增大不长有什么区别？我不知道大家说的是哪一个，是提出是那个呃多量房，还是这个方法，这个跟增大补偿还是很有区别的，看不出什么是什么相似的地方。呃，然后。同学还在问我说，为什么这就减法说过了。

就是说。我们做参数更新的时候呢，应该要沿着梯度的反方向更新，而不是沿着梯度方向更新。就是是假的。好，这个大家有一些很细节的问题，大家可以自己自己讨论一下。就是说关于这个为什么减法的问题，关于这个嗯。

增大补偿是吧这个。大家可以再思考一下。然后我们继续。啊，大家还有一个问题，就是说大家说这个是不是这种思想是不是把前面走的记一下，这不是的，我们后面的算法是现在这个不是的，他没有记前面的事儿。

他是往前看一，往后往后看一。好。下一个问题。就我们刚才这两个算法啊，因为第一个是动向法，第二个动向法的改变方法，他们都是要解决这个呃局部吸数方向反方向不见得是函数整体下降方向这个问题对吧？

所以他做了一些这个类似于积累的做法。啊，对，有同学问我说，这是不是相当于把前面的这个东西记录下来，也是有道理的。就说他是把这个前面这个动量给保持了。所以这个是候咋。好。那第二个问题呢，就是说这个。

我们如何去衰减我们的学习率？还有就是说我们如何能够智比较智能的对不同的参数呢采取不同的学题。如何你在训练过程中让这个算法自己去发现这些事情，让他自己去做。这样才能够对每一个数据体呢进行量身定做啊。

这这个是一个很很思的。就说这个我们就涉及到我们下下面讲一个算法，就叫做at grade。就这个ADA啊前面是adaptive的意思就是适应。调整的意思就是自动的使用自动调整的意思。

然后gd呢就是规定就是那个T。啊，所以就是我们提到这种问题，就是说我们对所有参数都使用相同的学习率，而且它这个嗯。不知道该怎么衰减，是吧？就是你不知道怎么去在训练之前就预定一个学习率的衰减方式。啊。

这个问题就比较讨厌。所以所以这个这种自适应的学习方法啊，那怎么办呢？他希望达到这个目的。那随着模型的训练呢，学习就应该自动衰减，而且衰减的方式应该适用于你当前这个数据集，而不是说你随便定义啊，然后呢。

对于更新频繁的参数。就我刚才说了，你要希望它采取比较小的学习。对于更新不频凡的参数。所以一共它没出现几次，你必须把这个它出现它出现的时候，你必须把它这个出现的信息给它良好记录下来。

这个时候呢你需要采取较大的学习。怎么样才能做这一点？哎，这有一个办法，这个办法啊，他其实就是他也是他要把之前做过的做过的事情把它记录下来。那他记录的呢不是那个动量。

他记录的是你每一次这个参数它被更新了多少？不是说频繁的参数，更新频繁的参数，我希望少更新一遍。更新不平凡的参数，我希望多更新一遍，对吧？那我先想想看，在我这次训练过程当中，哪些参数获得了多多次更新。

哪些参数我没有获得多次。这个是。我问一下问。如果那个参数已经前面，比如说我这个迭代要有上百万次，那我迭代到1000次的时候，发现有些参数每次都出现更新了。那我以后对它更新率就会小一点。

那我更新1000的时候，发现有些参数只更新了一次啊，那我大概下次他再出现的时候，我要抓抓住机会了，对吧？我要给他好好的更新一下这个。那具体怎么做？就是说他做了一个乘法函数。比如说你现在有两个参数。在一。

Car。然后呢，你每步更新的时候啊，你这个C大一有1个VE。TVT1吧。这一般这钱。对，然后C加R有1个VTR。就这个T呢。等于0P1。呃，相等于这个好多100啊之类的往下走。每次更新你都有一个V。

这个V呢就是随塔一的变化。这个。VT1就是西大一的变化，这个VT2就是西大二变化。然后你可能是比如现在二更新次数很少，就不怎么更新，都不能出现。那不出现的话。就很多都是0啊好多是00。

这个呢在一响能更新次数比较多，都都都不是0，每次正的负的正的负的来回又跳来跳去，对吧？就是好多好多的书。嗯，好的书。然后我怎么通过之前这个历史。让算法自动的去把这两个区分开来。其实一个办法就是这样。

我把这七打一不是更新次数多嘛？我就把它这个VTE呀。这些东西给平方和一下。因为我们正常的养这个V体就为具体。就是那个grading。实际上我们做的不是比你们用的是G了，就是说。我这样想。

我们不要这个有误导，这个地方不要写B，就选择在这点呢算梯度的时候，那个在一这个方向的梯度。这个。这个呢是在其他二方向题。这个如果它出现次数少呢，那你这个梯度你就不怎么更新它，那梯度就按多0。那。

如果这个C大一出现次数多呢，它这个梯度就都不适应，对吧？然后呢就去。然后在这种情况下呢，我们怎么去记录他们之前发生这些变化。我怎么去让这个算法自动识别这件事呢？我就把它记录一下，把大G。P。你你。

证明什么用？等于这个之前这些G。T1他们求和K吧。K等于从0到7。1啊，就之前的所有的那些个呃记录。做个平方盒。开个号。啊，这没开更好，这无所谓了。这个呃最后还是开的更好的，就是说。

大大剧这个人没看上号。She。这个平方，比说大地是没开根号的啊，就是说。你把它都给记下来，这个数越大，就说明你更新的越频繁，更新越多啊，这个数越小嘛，就说明更新的越少，对吧？那我。做下一步更新的时候。

我就来做个调整。我对于这个DI的参数。我把这学习率用它再除以一个，我算出这个积累的这个大致。我做给积累，这个数越大。整体的这个实现的学习力就越小。这个数越小呢，你整体实现这个学习率啊就越大。

所以这样就实现了一个事情，就使得你这个参数更新越频繁的，它自己适应出来了，越频繁的，你下一步更新呢就更新越小。以前更新的少呢，你下一步更新呢就更新的越多啊，这样就实现了。而整体上来言。

这个大致呀它是递增的。随着你更新不断增加，你就是网上不断加这个平方下，它永远递增的。所以说你任何一个参数的学习率都是越来越小。这样我们就完成刚才说的一件事。第一，随着模型的训练。

所有参数的学习率都是衰减。至于哪个衰减的厉害，哪个衰减的不厉害，取决于他们之前更新的次数。你更新的越厉害了，你这个就题度越变化越多的，你这个学习率就越小，题速变化越少的你这个学习率呢就越大。

那这就完成了这个事情，对吧？所以他这想法也是非常简单。什么也没做，做了很少的事情，就是每次一更新，你就把这个G。啊，记录下来下次更新的时候，你把它放到松面上这样子。这就完成了刚才的事情，对吧？好。

看同学问题啊。嗯。对，然后有同学说这样是不是需要这个额外开内存存这个参数的更新次数啊，那是要的。就是说你不但要知道这个参数更新次数，其更重要的是什么呢？你要知道这个你要把这个求和，其实你你那个开根内存。

你要存什么呢？要存一个香药，对吧？就是说。对于。这打一来说，要存1个这个GTE1这个数呢每一次更新之后，你就要把它也要更新一下。然后这个GT。R就是个R。只要你要存一个，比如说你要有NN个参数的话。

你要存一个N位的向量。但这个向量一般是比较少。因为参数即便有100个，你就是存1个1000维的向量。那，这就是一箱个数，这个是非常小。F。对，有同学说能不能解释一下吸数稀疏数据，就是说这个呃这个。

这个数据里边。现在很多都是脸。区长。好，然后这个还有没有其他的问题？所以大家看到这个当我们一般来讲我描述前面这个目的的时候啊，我们都会觉得哟呦这个好像挺复杂的，这个挺挺麻烦啊，不知道怎么办。

然后你看到它实现就是。这个前面人想出的一些方法的时候，你发现他都是用一个非常简单的方法去实现。这个也是这个事情是非常重要的。在工业里面。在工业应用里面，你想实现一件事，你可以用复杂的方法用简单的方话。

那你一定要用最简单的方法去做。你这样不容易出错。逻你的逻辑越简越简单越好，而且你的这个实现也是越简单越好。好，这个地方还有没有别的问题？好，那我们继续。好，那这个方法。还是存在一些问题啊。

整个这个呃文章的顺序和包括我们这个讲解的顺序都是这样。我们先提出一些主要的问题，然后解决一些。然后你那你解决这个问题的方法呢，它本身可能还是有一些问题。那我们再看怎么去改进，就这样。

那我们这个呃at grade这个方法的一个主要问题啊，就是说我们刚才其实他这主要问题也是我们刚才说它的一个特点，就它学习率衰减比较厉害。你每更新一次，你这个大G就增加一次。

然后你要更新的是咱们说这个上百万次上千万次的时候，那你这个。衰减太厉害，很快就没了，就是大家都不学了。就卡死了不动了，对吧？那这是一个问题，他这个学习率快速的单调衰减，这摔的衰减肯定。🤧所以说呢。

所以说呢。我们。他与其说你把这个所有前面的这个东东西啊都给他加起来。那我说我别都加起来，我离得太远那些，因为那个过去时间长了，可能也不是很适应当前情况了。那个我就不要了，怎么办呢？我做一个移动平均值。

我们把这大G改成这个E。因为一般我们用E表示平均值，对吧？我们大致就是aggregate是那意思啊，就是说全积累起来。那E呢指的是一个平均值，直接是怎么做呢？就说我们上一阶段的平均值，我们乘以一个伽马。

这个伽马是一个啊小一的数，小一大于零的。然后呢，我们把上一阶段的平均值和当前那个值作为一个平均得到一个新的平均值。就是你不用把前面那些步骤都就是前100部分都给拿出来。

重新把它们加一块除以100次平不用那，你就把前面那个平均值跟当前那个值做个平配就行。这样得到效果其实是一个指数。就是他最终这个东西得到效果是什么呢？就是说。这个大家可以自己思考一下。这个一般来讲。

我们说算那个随时T，做这个移动平均什么意思？一个函数，这函数是关于T的函数，这TT。做一动空音呢就是说你选出其中一段。你在这点处你往前看一点，然后在这儿做个平均，平均大概在这儿。

如果你要是一开始你在这儿触发的呢，我先看一下这个屏幕屏幕就在这儿，这叫移动。那我们信这个就是等于说你做了一个积分，从A到B做了个积分，对吧？那这我们这种做法跟他不太一样。

我们这种做法做的相当于是啊你也做了个积分，但不是从A到B，直接对G做积分。这种做法它其实是一个效果。肯定有一个G。是那个本身那个自然给你。还有一个东西是什么呢？就这个。一个衰减衰减率。

这是一个意图的什么。那么X大概这样可。然后呢，我们其实这个我们没有做直接这个审别，我们做的是这样一个积分。从零开始到当前那个T。用这个E兰姆达X乘以了。啊，这个GX啊这个机分。啊，最后除以一个这个。

这个权重自己的计分。加强音嘛。这个积分呢它的好处是什么呢？就他把你这个你看你离你当前这个时间越近的这些点你的权重越大，你这个越远的点权重越小。因为这个指数嘛，所以说你呃时间这个离得越远，这个衰减专力了。

就前面基本上就没有。然后呢。这就达到这个目的。然后呢，还得考虑什么？这好算。你这个数学表达是让成长行比死的，那实际上特比较好算，他就是这样算。至于为什么这样算就到这个小果，大家可以自己思考一下。

那么这样的话，我们就用这个E啊，这个大E啊就直接取代了前面一个大题，我们还是对比。当你算一个改进算法的时候，你就直接对比他们两个区别的。几乎都是一样的，就这个点不一样，这个是大E对吧？把这变成大E了啊。

这东西了，这大E呢是一个移动平均，而不是整整个的这个求。那他呢？就可以应成到呃就是说它可以避免你这个学习率这个快速的单价费。所以这个就是呃艾 delta，就是我们这个艾gra的一个概进算。

但这个算法啊它不止于此。但实际上当这个作者们开发这个算法的时候，他们还注意到了一个问题，什么问题呢？就是说他们发现这个。你般这个式子有什么问题啊？他这个。这个东西的单位就是你对那个它它是这个梯度的单位。

梯度就是说你对这个函数求导。比如说你的函数是啊。重量，然后你那个参数呢是这个时间，那你这个T数单位中应间的重量除以时间，是这样对吧？或者说你的函数如果是钱就是。

dollar嗯你这个记出就是dollar注意时间这样那。这就出现问题了，就是你这个。参数它的单位是时间或者是什么别的参数啊是就比方说时间。然后你这个梯度的单位是doller除以时0间。

就它俩其实不是一个单位。不是一单位怎么做加减法，这物理常是不成立的，那不可以做加减。对吧所以说新入下降法本身它就存在这个问题。从一开始就有这个问题，只是大家都没有去关注它。🤧然后。现在这改变算法里边呢。

它这个这个学习率啊，它不是个常处了，它有分围。你看这个分母。它其实是这个梯度的平方，再开一根号。所以这个分母的这个单位啊就跟梯度单位是一样。那你从这个量钢上来讲，你这个单位在这小掉。

所以说后边整个这一项它是没有单位的。没有单位的，所以你这还还是存在一个问题。你用一个没单位的东西去更新一个有单位的东西，这还是不对的处理。所以说呢。这些作者呢他们说那我为了呃首先从物理上我希望清楚一点。

怎么办呢？我希望把。这个东西的单位也给它改一下，把它改成你这个参数中心的单位，参数单位怎么变样怎么办呢？就是啊他在这个仪塔上面，他不要采用仪塔。它采用的是我这地方写错了。

这个daelta西塔的平方应该是。就个它采用的不是仪塔，它采用的是跟这个用了你西塔历史上更新的步伐，下面这个是梯度的大小，上面那个呢是你每一次更新的步伐。做了一个评运。我们知道当我们用这个算法的时候。

它其实每一步更新它不等于梯度。因为我们不是已经做了这个衰讲，对吧？那既然你每一步更新它不等于提度，那。这个东西。参数更新嘛，参数自己做个差，那肯定就是参数单位。

所以他把这个一塔这没单位的东西换成了一个参数自己单位的值。那这个时候后边这一项它的单位。量钢就和你前面这个最大量钢是一样的，这个时候做减法，这比合是。那这样做呢，从物理上来讲是这样，你是为了把量钢统一。

对吧？那从实际上他做了一件什么事呢？他把仪塔给去掉了，这也很重要，发现没有？这个仪塔虽然前面做了好多自动化的自适用啊什么，这仪塔它一直存在着，你得天你得还是得自己去定。这个比较讨厌。说到这儿的时候呢。

啊一场没了。这个就很有意思，因为你那个彻底没参数，你把那个一态去掉。它彻底是一个自动使应，从一开始就没有学习率，然后自己搞出去学习率，然后一点点就就就就过来，对吧？所以说这种方法呢。不管从原理上来讲。

还是从实际上来讲，都是还是有些议。就是说你再对比一下啊，从这儿到这，只是把仪卡。换成那个参数自己更新，自己的这个更新的一个这个呃。移动平均。啊，然后同学问说这个E是不是单调递增的，这个E不是。

这个不简单是。就是说呃比如我们刚才画这个图里吧，这个具是重一开始上升，后来下降了，对吧？那这个呃当你往后走的时候呢，你的平均值其实也就是下降了。所以这种方法呢，它不见得能保证那个学习率要不断的下降。

但是呢呃他通过自己的这个适应啊，它就保证你那个学习率是在一个合理的位置上。就是说其实学习率我们并不是说非得让他必须一定要下降。我们前面说有这个目的了，就是希望他这个学习率自动衰减。

那是因为我们没有办法找到一个合适的学习率。那你为了保证这个模型收敛，那你就得让它这个最好是一直衰减比较好，但是后来就改进方法啊，它更多的是找到了一种比较合适的学习率，而不是说一味的让它衰减。

它可以也有可能是一味的衰减。就是说如果你这个更新。啊，越来越大。那为了避免它这个发散出去了，那你就会说一点，如果你更新越来越小了呢。就随着随着样本往后看，你发现这个参数在刚才那些样本里面更新的比较多。

那可能是因为你这排序的问题，对吧？那你在现在的样本里头更新很少，那我觉得也得增加增加的学习率，对不对？这个意思。所以他更多的是找到一个合理的呃学习率，而不是一味的让和去让这个呃学习率去这个降低。这样。

这是一个非常好的问题。还有没有其他的问题？好，那我们当然这个地方我们稍微提一句啊，就是说呃刚才那个第一个版本就这个版本，这个版本还有另外一个名字，就是说这个一个。继续学习的大学纪的人物啊这个。

因啊这个独立于之前这些作者，他也提出过这个法。但他没有提出这个下面的策，所以我们就把它给归进去。就对就是这个主要目的是说，当大家看文献，比如说别人提到这种算法的时候，大家就知道的啊。

这个算法也知道是什么。🤧并不是一个你不懂的东西。好。那最后一个。啊，最后一个我们在这个第四章讲的这个算法，就说它是干什么呢？它结合了动量法与这个啊。挨eldlta的这地方写错了呀，这个没有M。

就是刚才那挨eldelta。他结合了两种算法。我明白说了，就刚才有同学提了一个非常好的问题，我刚才还那个一下解释错了，就是说动账法呢，它其实是记录了之前。那个移动的主要的方向。这样形成一个动量，对吧？

就是产生了惯性嘛，你把以前的那个方向记录下来，架起来，产生那个惯性。这个。艾到delta方法是什么？它记录了以前震动的幅度。就是说他没有把那个按照一个方向加起来，他想知道的是你之前那个呃振动的幅度。

就所以说平方和。他不管方向，他做的平方，正了四都无所谓，反正是只要你动了就行。而这个动量法呢，它其实是正负很有关系。这是说我们刚才提到的就是说。为什么正负有关系呢？沿着这个方向，一人一直是向右的。

所以说它向右的方向积累起来。沿着这个垂直方向呢，它是正负正负都有，所以说它就抵消掉了，所以它才可以避免你这个无谓的震荡来保证你在主要方向进行优化，对吧？所以说这个动量法呢一定要关注你的这个负号。

符号相反就互相。开le掉符相相符号相同就可以不断积累。它是这个目的。这个东西在统计学上特别像什么呢？特别像一个局部性问题。就是说啊我们对于这GT的这个这个东西。

GT其实是随着每次T它GT得到一说的不一样，对吧？你可以把它看成想象成是一个类似于随机变量的东西。动量是什么呢？就是这期的一些我们想知道这个G期整体上是往哪能走的，这叫动量。刚才那个。移动平均也好。

还是这个这个全加一块也好，这东西这是什么？它有点像二阶距是吧具体的平方给加起来。对吧所以说呢。这种结合的两种算法的算法，这个iteam就是adapive momentum。这个算法它呢。

既考虑了一阶举这个动量，也考虑了二阶举的这个。其实我不知道为什么要弄V啊，这个V不是速度的意思，这个V指的应该是啊voltility，就是说那个震荡幅度或者是啊这个viance之类的这个这个意思。

这是套这样都都记下来，这于怎么用呢？参参数更新法其实是说这样。这个一塔还在啊。他把这个方向性的这这个这一项，就是那梯度那一项换成动量。把这个衰减这一项呢。用了这个。大概这个意思。就说我们在动量法的时候。

我回去看一看。我们把衰减这个方向性东西换成了。动量这个V。此V非比V啊，这个V是通向的意思。我们把衰减这个方向换成了动量。然后在做这个自适应的这个方法的时候呢，我们把这个乘法项。

采取了这个G的平方的一个积累。不管平均也好，还是全部积累也好，总归是关于这个啊有G的平方的一个积累。现在这个新的算法呢，他既把动量算出来，也把这个这个平方积累算出来。然后在方向性这里用了同向。

在衰减这里用了这个。所以它其实是一种结合的动量法与这个呃。开动delta的方法。这两两个就是歌曲机场那种算法，对吧？它既有自动的衰减，又有。保持速度的种功能。所以说呢。嗯。它就既能保既能这个解决。

前面说第一个问题，就是说如果你这个梯度方向不是很好，这是有震荡怎么办啊，这个动量解决。然后这第二个问题呢，就是说如果你参数有的更新快有更新，有的更新多，有更新少，有些吸附性怎么办，它就会这些。

所以这种算法，它从原理上来说就是会更好一些。他照顾的面更多一些，而且实现起来并不复杂。并没有比刚才年说的，这只不过是。按同学说话说就是多开展内存。要多记录点东西，你要摔钾的时候，公西也很简。Yeah。

好，那实际操作的时候吧，这个VTMT他们采取了一个无偏估计，就是跟这个式子还略有不同。嗯。这个文章里有就有有有介绍，就说它主要目的是说，当你一开始这个所谓的移动平均啊，就是你越往后它越稳定。

你一开始的时候呢，移动平均它不就是取一个点，那就很不稳定。所以说那个时候呢他稍微做了一点调整。大家可以。呃。有同学问说那个无片估计是子。B万上标题指的什么啊？大家重新看一下那个原始文章。来看一眼。

那这个是？哦，直接在这看。这个无片估计。这里我稍微放大一点啊。啊，这是我刚才说这个。就是他没有他定义了这个MT和BT，但他没有直接用他用了个MT是MT除以1减之贝塔，VT是VT除以一减之贝塔。这样子。

然后那个耳边的T次方，这个T次方呢就是说大家看啊这个嗯。当这个就因贝塔一贝塔二都是小于一的。当你这个T这个T次方这T这个上到T就是这个幂次的意思。那你当这个T非常大的时候，这个事儿就没了。这变成零了。

所以分母就没了，这M hatT就和MT相等，也是一样，对吧？所以只是当那个T比较小的时候T等于一的时候。这样说才不行的，所以他主要是解决这个当T比较小的时候啊。

你要这个呃就他说啊他说这两个都训练中够存在向零方向偏差的问题，就是说他比真实的需求要小一点，所以他除以了一个小一的数候，把它给放大在一起，这个意思。所以这就是那无边无际的部分。大家可以自己看。

我觉得有有的这样讲。呃，然后有同学问刚才那个平均的问题啊，那个呃因为是刚才的，然后我们要不等会儿大一的时候再给大家说一说。哦。到这里还有没有别的问题？啊，对，有同学问了一个很好问题了。

这个算法有没有代码实现。其实这个大家可以看到这个算法其实本身是很简单的。所以这个代码呢首先在这个什么上，就是那个文章里面，他提到了一些呃这个简单的伪代码，大家可以用那个来实现。

还有就是说大家可以看看这个各种库里面，基本上应该都有。我估计你可以看看那个SKSK learn里头是不是有。我我因为这个准备的时候没有来得及给大家把代码写出来，就是说。大家可以自己找一下。是。

我估计SK learn里面都是有的，就是他那个可能是一个包，就是你直调用就行。那具体的那个代码怎么写的呢？啊，你可能看不到。然后如果你如果你自己想写一个，你就根据这个算法定义，自己自己来写是可以的。哎。

所以现在有同学问了一个非常好的问题，就是说你如何根据数据去选择不同的优化。第一个呢。就是说你要看这些优化算法，他们解决了什么问题，对吧？就它还是一个原则上说，它还是一个具体问题，具体分析的事情。

但是呢你会得到一些指导指导性的意见。就比如说你现在这个问题，你知道你那个你你可以大概就是比如说你可以先把你那个函数可视化一下，对吧？你从各个维度上你画一个画个图，你看看它是不是很奇缺。

是不是这个震荡很厉害呀，如果很厉害的话，那这个动量法，你是不是要考虑一下，对吧？那如果要是你发现你这个问题本身，比如说你是一个文本处理的问题。

那很有可能你是有系系数性的去考虑的那你是不是就要考虑一下这个自动衰减的事情，对吧？啊，就是说这个不同参数要采取不同的这个。学习率对吧？这样，所以就是针对于你的这个呃。问题啊就。你就需要啊。

就是从你的问题本身的特点，你去选选选择你的需要的算法。而但是这个除此之外呢。我们这里其实他还给了个总结。就说啊。😊，如何选取算法？就他大概比较了一下。整体上来讲。

我们刚才也说到了这个呃iteam这个算法，它基本上包含了前面这几种算法的所有的优点。所以它其实它可能是几种算法中综合表现最好的。那事实上可能大概也有一些实验结果报标明。

他基本上就当你不知道你这个数据是什么样的，你也不是很了解，你就想选一个，你也没什么办法，那你可能就选这个就行。那如果你要是对你这个数据非常了解。比如说它不存在这个系数性的问题。

那你其实没有必要去那个用这个自适应的事，你可能用多量法就行。嗯，因为因为凡是你加入一些新的特征啊，这个teacher他都是可能把你都变的。就是说这可能最简单的方法是做就行。哎，有朋友问说。

如果是股市股票的这个。呃，数据用什么算法这个。就不知道，因为这股票里面这个数据也可能有各种不同的，这还是你要看。🤧这是你的问题。而且一般来讲嗯。交易的数据噪音非常大。就是。

你要考虑如何去消除一些噪音解是。有可能有啥都不行。啊，当你比如说有同学问关于这个模型选择，就是说你如何去验证这些呃。优化算法效果。这个问题呢。是这样，就是说你可以用。就是首先你一个模型的效果啊。

有几个有几个参考的维度啊。第一个呢就是说你的模型收敛速度是怎么样，这个事情很容易测演，对吧？你拿出一个拿出一拿出你一个比较关心的数据，你把不不同模型跑一遍，你就知道它这个收敛速度怎么样，对吧？这是一个。

还有一个是你需要知道这个模型稳定程度是。对就能跑到安点上那种啊，它稳定性都不好。因为安点它通常是因为你这个数据起造成。下一数据就拿你不在那了，你知吧？就就就不好。所以说。稳定性怎么测呢？

用这个前面同学有提过这个crassl。就交叉验证。这个比如说你也可以到那个呃se learn里边看一下，那里边有一些工具，就是告诉你他就是现成的，你给他一个数据集，100万个点，他啪给你分成一呃呃。

100大份。是错十0份，比如说然后呢他拿9份做一个训练，在剩下那一份上做一个预测，然后再拿另外9份做个实验。在剩下的一份上做预测啊，就是这个叫做这个啊N two one的这个foldco，就是这种东西。

然后你看看这种你用一部分数据训练去在另一部分数据上做预测这种做法，它是不是给你一个很好预测。如果是的话，那就比较好。那你当然你可以对不同的模型做这件事，你看看哪一个模型，它这个稳定性更好呢。

那这也是一个挑选的方式。一般来讲这个class是你。教学模型的最后一步就是说如果这几个模型啊这个收敛速度都okK，都能满足你的需求，不会太慢慢到你忍不了程度，对吧？然后呢。

他们在自己这个呃你给他一个数据，不考虑这个验证的情况下，你给他一个数据，他确实能走到你这个绩效时点。尤就有这样的模型都都不错。那你呢你最后用一个这个classization试试看说哪个比较好一些。哎。

然后有同学说这个。训练样本和测试样本数量两分。那这个事情嗯。就是。这可能也是一个比较主观的事情，就是说。呃。一般来讲呢，你比如说我刚才说那个N two one这个做法。就说你这个N越大，你是。

做这个验证的时候，你花的时间越长。你想你要越大，意味着你要训练N次，然后你再剩下那一点你做预测，你要十10比亿的话，你就算1次，每次做一个预测，你要100笔，你就要算100次。

所以这个事儿呢你应该算的越多啊，你这个对稳定性的这个考察越明显。但是呢你算越多，你花的时间越长。所以这个取决于你计算能力，也是或者就是反正。大概你也不用不用分太多。还有没其他的问题？哎，对。

所以看着办的意思。就是说有些东西就没办法。因为你看我们这些算法呢。他基本上也是想要帮你解决一些这样的问题。就有些东西你本来就是只能自己看着办了。比如说学习力学习力这个衰减的。

这算法呢他帮你解决了一部分啊，就是说。你可以让他自动去。但是终归还是有很多事情你得自己开办，但这个事情也是好事情，为什么呢？如果是所有的事情都自动化了，没有什么是你人工可以参与的那大家也不用学了。

你你也根本就不需要找这个工作，你你不存在这种工作。机器就罢，就是因为这里面多少含有人工参与的成分，有它的艺术的部分在，所以才需要人。是啥。啊，那个同学问还是提到这个交叉验证啊，class就是说。

你怎么去看这模型是不是稳定？那一般来讲，你那个做classization的时候，它就是说你你会有一个这个正确率。比如说你预测的那个准确率，就是准确率，当然不同的问题定义不一样了。

然后你就看这个准确率哪个高就。有些准确率。对对对，就是一个同学说的这个有好多这个呃积极学习的很很细节的这个问醒大家。我们最近有一个非常好的一个项目班啊，这个这个我们我我也看了这个项目班的这简介。

就是里面的主题非常的。😊，呃，注重我们工业的实这个实践，就是应用非常好。我们最后也有这个一个宣传，就是大家可看一下。然后呢讲师呢就是非常非常好的讲师，就是好几位非常好的讲师。好，大家还有别的问题。啊。

大家说adapive加上MV，那这个本分钟没有介绍，这个大家可以自己看一看，是不是他这个我看你说adapive加上NV就是这个呃减。减原始速度梯度的那个这个是不是跟我们这里边有一些地方重复的？你看一下。

好，还有没有其他问题？啊，对，还有包括这个视频的问题啊，今天没听课，还可以回放吗？可以的，我们这个正在录屏。然后还有包括这个课程链接啊，就是我们那个。这个PPT里边最后一页。

大家可以去点一下那个啊就是课堂链接，你点到。哎，唐老师讲是问说能不能讲一下这个分布式优化。这个。😊，本文中提到的也提到一些，提到的比较少。就在这里就说他说。

列举可析这个呃随机系数向量法的并行率分布式加架构。就是说我这里也只是把这名字列了一下啊，具体的呢呃我实现的并不多，所以说这个就得要让大家去这个去实践一下，看看哪些架构里面它这个实现不好。

就是他基本上就是说我们现在都不是用一个机器来做计算，对吧？那你可不可以去比较好的用并行计算这种方式去实现你的这个算法。就说把你的数据。包括你的梯度样本把它分散在各个不同的机器里存。首先你得保存是吧？

太大，你存在一个内存，你本身就很费劲。然后你存在不同机器里，然后每个机器呢只负责计算一部分。但这个时候你必须让他们机器之间有交流。你最直接算你这部分。这个参数更新。比如说我们说这参数更新的时候啊。

很多东西都跟以前算那种关系的。你怎么去保证这些机器有合理的交流，然后保证这些算法呢，这个就能够实现，对吧？要尽可能多的机器，然后还不能出错，不能说那个。算完了，这边还没算呢。

然后这个明明上一步参数更新的数据，然后跑这边用用在下一步参数更新上面去了等等些这就比较讨厌的问题，对吧？就是他需要一个很好的架构去保证它不要出问题。啊，所以说呢这就有很多这个公司啊，还有这些研究机构呢。

他们就开发了一些架构。这个大家就只能去嗯让大家去实现呃，去进行这个实验一下。对我觉得分布式这个东西。也是蛮复杂的，就是这个还是很复杂。而且我并不是这方面专家，所以这个可以可以考虑。

这是以后如果大家很有兴趣的话，大家只要叫的欢，对吧？最后这个东西都是会有的。好，还有没有其他的问题？好，那我们进入最后一个章点。这个地方啊他还讲了一些其他的这个。方法也是来优化这个随机提出现量法的。

就说呃。刚才那些呢就是就是。主要解决我们现面说这些问题。对这些这些东西。现在呢就是说你除除此除了这些算法之外，还是有一些别的办法。它可能不像是那种呃嵌入在每一次更新当中。他不是好像真正拍样。

前面我主要是讲就是改变这个参数更新法则来实现一些算。那这个呢它就不是做这件事，它并不是去嗯在每次更新中做这种手脚。它它是在另外的维度上，也是要改进这个呃这个随激气度下降第一个做法就种刚才提到的。

就说啊你要做一个洗牌。每次大循环之前做一个洗牌，看那个出牌效。是。就是说我们弄那个mini batch这个小小票项是吧？不是把那个。整个书籍切刀切分成肉干粉。然后每一份算一题录。

然后这个每一份你做一次这个参数更新，啪更新一遍，满试对吧？满试完之后呢。你把整个打断一遍，然后再重新做一次去划分。然后再啊更新一遍然再完成然，再不能不断打走。这个是避免什么。

就避免你那个一开始你定这个顺序，你不是随便定的这个顺序，万一你要定的不太好，你有可能造成。这个顺序本身。给以影响你这个训练的结果，这这不是你想要的。你你这个模型你一般来讲这种呃随机取样。

你是希望他们这个顺序是没关系的。一般来讲，很多情况下都是这样，像顺序没关系。所以你需要每次大循环之后洗一次牌，再进行一次大循环，再洗一次牌，这样消除你这个顺序的影响。你得到一个比较稳定的模型。

否则的话你这次是用这个顺序的，你得到一个模型，你等你预测的时候，你不是这个顺序了，那你模型可能就是装式，所以就不稳定了，对吧？这主要增量稳定性。然后呢，当然有另外一种做法，就是这个呃pre这个呢他说是。

人为对这个数据开始，就是有些问题上。嗯，但是这个我具体的问题我这个不太了解，但他说。这个文章里面有一些链接，告诉你说哪些文章提到一件事。有些问题上啊，这个人工排序是很重要，很有必要的。

就是你应该给他先排一个序。不要给他打乱。就是应该先开一个区那种情况下。那就也先态好，下次你再大评完结束之后，你也还是要把心态好。那就这怎排，这个一定是需要你用到那个领域的专业知识。

而不是及学习本身这个抽象知识。必须要用专业知识，为什么这么排？这一个一定是这样。就是这个洗牌和这个人为排序这样的做法。都是可以促进你的这个学习。当然在不同情况下。第二个呢是这个叫做批规范法。呃。

P规范化和P再规范化。写这篇文章的时候呢，还没有P再规范化，这还不存在了。这个是今年2月份。只有这个P规范化，就他就他只提到这个。他做这件事呢就是说。这个也是我们呃我翻译过的一篇文章。

所以大家如果有兴趣的话，这个也是可以给大家讲。但这在次我们只能是稍微的就是简单介绍一下，就说你这个。每次一过来的时候，这小批量来的时候，他这个呃。他这个呃。他这主要是针对于那个多层设计网络。

多层网络学习的。就是你呃，比如说有这好几层，三层四层是吧这？你这个训练的时候怎么样呢？你是拿一小批方过来。打这一层先得出一些输出，然后你到下一层，然后又又什练又得出一些输出，又得到一些输出。这样。

然后通常我们比如说我们做机器这个训练一模型的时候，我们都喜欢把那个样那个样本那数据啊给它规一化一下。在训练之前。们最常喜欢做的这种事情，为什么这么做呢？它可以让你计算的都容出不容出问题。

比如说你当你算矩阵的时候，你就不规化，你一算那个covariance，有的时候它那个称生值有的就非常大，的称非常小，你算矩阵力总归会出问题。然后呢嗯。还有就是你这个呃。有些问题。

比如说你打个比方说你算的是这个。呃。推荐系统吧，比如说啊你想算某一个参数，对你这个人对某些东西的兴趣的这个corition。然后你不同的参数，它从本身的这个震荡幅度度不一样大。

但但是你想要的是这个预测的能力，你不关心震荡幅，所以你应该先把那个不关心的数据呢进在去掉，所以说会规化，我们经常做这种事情，那做了规一化之后呢，但规一化只对第一层起了效起了效果。

就第一层的输入是规一化之后，你到第二层的时候，它不是用了第一层的输出结果，这堆东西他可能没有可是没有进行规。它随着你训练的进行的，这这堆东西他那个偏差会越来。那就影响了你后边这个训练的效果。

而且你层随着层数增深呢，这训练效果越来越差，这个不好，对吧？所以这个批规范化什么意思呢？每一层训练之后，在这边加了一个夹层，他把你那个输出。给规划了一下。差不多这，规范化下。

然后把那规范化面系数给记下来。比如说你平移了一下，又伸缩了一下，把两数记下放在这。然后你下一步的时候呢，你就用这个规范化之后的数据进行训练。所以每一次每一层的输入都变成了规范化之后的数据。

这样使得每一层的训练都不容易呃由于这个来回。这个东西该会震荡而影响了你训练的速度。就是说是这样一种方，这个方法呢还是很巧妙，很有意思。它的实现起来也不是很复杂。所以这个如果大家感兴趣，也可以给大家讲。

这个是google的一些这个研究人员做的一个。然后第四个呢是这个rely stopping，这什么意思呢？这个其实是一个很广泛的一种想法。就如说当你训练的时候，比如说。你跑到一个很平的地方。啊。

我这个没有。比如说你现在是优化一个函数是吧？哎，到这就屏幕。所以说你沿着这个方向走的时候呢，比如西大零学在这儿，那四大一在这42在这下三在这儿，你就发现你还是可以不断走下去。但是就是你的步伐也不是很小。

你还是不不断走下去。但是你这个目标还是会减少啊，就已经很小。不怎么动。对吧那在这种情况下，就是说你虽然这个步长还没有达到你终止实验的终止这个训练的那个需求，但你知道你这个U标函数已经不动了。

不动了就算了，不动了结束。知道吧？小个 release道，当你这个误差减小程度小于某一个阈值的时候，你就不弄。中治什样，这样你也可以减减少一些你这个在无谓的地方花的时间。Do ready stop。

最后一个呢就我们刚才也提到了，叫 gradientn，什么意思呢？在每一次更新中，人为也加值脱。就是不是说这个有局不较值的问题，对吧？有好多局不较值。你要比如跑到这来了，如果你不加噪音呢。

他就在这个地方收敛。但是你加点噪音，那就还有一点可能性，到处乱乱到处乱跳，然后最后收敛有更好一点的就这个就就像什么呢？就像是吧。这个我们生活当中有一个例子，就说。你这个。因为一个。

用一个框啊盛东西的时候，不如用框。盛这个石头石子沙过行。框大一下，那框面啊很不平坦。方就是拿那个整条边的方。抓沙子之后呢，他这个这个缝里边。赛马啥的对吧？到处都是，你这那光不光滑。

然后有时候你你弄它的时候，你希望把它那个东西聚聚到中间一点。因为它这个这边有个塞了一堆，这边塞了一堆，你下一步不好装了，怎么办呢？大怎么办？你把它来回晃一晃，震荡你当敲一敲踢两脚，它就集中到下面了。

为什么？因为你把它从这局部角值给踢出来。他他还可往上跳，但是他也可往下跳。总之是你踢上脚，他最后整体上来说它就提升到。这天样要的过程就是这事，你知道吧？每一次更新的时候加入个人为造音。

让他从局部角值跳转，然后寻找到一个更好的教值，是这个意思。好，对大家喜欢举例子。对我也觉得这个。嗯，就是这样形象一点的，大家可能理解更清楚些。好，那对这个地方还有什么问题？😊，哎，对。

至于怎么怎么加噪引，这个说具体实现的是候怎么办？就是说啊我文章里头有写到它。比如说在那个G上面加一个专项。哎，你看其实非常简单，职接，我这稍微放大一点。看。😊，这个GTI啊是那个梯度。

在T哪一步对I这个参数算出那个梯度。他直接把它加上了一个人为造音，就是你用那个计算机生成了一个呃。正态分布的一个。一个随机数。往上一加就把这个噪音。但这个detaT呢，我想它应该逐渐逐渐缩小。

比如说你的噪音呢你不能一直太大。就是说你这个不是踢上脚就好。比如说你踢脚，你可能好一点，你再踢脚时候你就不能使用把劲了，你都已经踢下去候，你再使用来这，你就踢上来，对吧？

所以说你这个晃动幅度我的时一开始比较大，效果比较好。然后你到后边就是小一些，相对应这里呢。哎，就是这个标T，这个西格maT啊对这是西maT啊，它随着T增大肯定是要越来越小。这个你可能是要加入一个人为的。

睡觉的方式。那实际上就是你看他这里也给了这sT呢是一个依塔除以一个一加T的大马方。这T就大就最小，最后就看零了。所以说你基本上已经收敛到那个极角值之后，你就不要再再再去碰碰，你再去碰它不是自找麻烦。对？

所以当T表较大的时候，这事。然后还有别的问题。同学说这个梯度下降基本上是所有机器学习算法的基础。啊，这个说法呢是。你可以认为是这样，就是说。他并不能说是基础，他应该说是一部分，就是说。

你做一期学习的时候呢，一定要先模型。然后就建立模型。然后呢，再训演。这个所谓吸收下降法啊，它主要是在这个训练。就是你得先有模型，然后做训练的时候，就对。那现在基本上可能这种方法应该比较简单。

然后呃根据应用费应用呢就非常广泛。所以也可以认为你在学习机器学习的时候呢，一定会用到这个。可以认为它是一种技术。在上面这步如何去建立模型，这是另外一个问题，可他完全不一样。这个这个还是那句话。

大家可以去我们的项目管理看看，在不同的工业应用当中是如何建立这行模型。好，那这个我们今天主要内容就讲完了，感谢大家。然后因为这是我们第一次的论文班，然后也是欢迎大家就尽可能的给我们呃多的反馈。

就是说我们需要把地方需要改进，哪些地方做的可能比较好呢，这样做的不好。然后我们呢。根据这个反馈呢给大家就是将来贡献更好的这个课程。

然后最后呢，我需要。啊，亮的。最后这个PPT最后一页，我们课程飞燕，然写了好多次，我们即将开班的这个机器学习的项目版，这个里面就是解决了很多我们这里的问题。model就是说你在不同的工业问题当中。

你应该选择什么样的模型，如何建立模型？这个是。我们基续学习的核心问题就是优化这部分呢，因为已经做的很多，而且它比较有统一性啊，不同的问题大不差不多都是在用这些优化。那。

但是不同的问题建立建立的模型那很重是不一样的，这个是非常重要的。所以而且呃你可以抽象的把出很多模型。但是呢在工业应用当中，到底哪些模型是好使的，为什么好使？然后大家现在普遍都在用些什么？

你如果要是想加入这个领域，你应该学习些什么？

这个问题就由我们这个项目办。

人工智能—机器学习中的数学（七月在线出品） - P12：微积分和梯度 - 七月在线-julyedu - BV1Vo4y1o7t1

，大家好，我是周博，很高兴跟大家共同探讨跟学习机器学习中的数学这样一个问题。我们这门课程呢要分大概十几个模块，跟大家共同来探讨跟分析在机器学习的角度，如何看待和应用数学的。

第一次我们跟大家探讨一下微积分梯度真间的不等式等方面的问题。而这样一个话题呢，其实是我们由于在做机器学习的过程之中，发现数学发挥着越来越重要的作用。比如说我们在做矩阵乘法。

我们一般是用A的DI行和B的DJ列，它的点乘作为C的DI行DJ列。那数学家为什么会如此定义取阵的乘法呢？他如果从积极学习的角度来看，和马尔科夫模型有什么样的相关性呢？

它跟全概率公式跟概率论又有什么样的关系呢？这就是我们今我们这门课程跟大家来探讨跟学习的问题。第一次的内容呢，我们大概分这样几个内容跟大家依次来讨论。相关的那相关呃。第一次呢我们大体上分这样几个内容。

跟大家共同探讨一下相关的话题。首先我们给一个简单的一个。简单的一个公式，零的阶乘分之一加上一的阶成分之1，加上二的阶成分之1，加到N的阶成分之1，N取无穷大的时候，S是一个收敛的。

那么说S的值应该等于几呢？我们带着这样一个问题来看一下，在微积分是如何来解决它的。首先我们附加证明的给出一个非常直观的一个定理，两边加定理。如果说在X0的某一个领域上，X是有定义的，并且FX是比GX大。

而比HX是小的。并且我们已知GX在X趋近零的时候，它的极限是AHX它在X0趋近零的时候，趋近X0的时候，极限也是A。那这样的话，FX的极限就是A。我们直接应用这样一个两边加定理来去解决一个问题。

举一个例子。比如说我们给定一个单位圆O以OA原点，以OA长度为一作一个单位圆。如此一来，我们给定任意一个角度。那么说从C到B这个有向线段就是sine XAB的弧就是X。

而有效线段AB就代表了tangent X。而显然，CB是小于AB的，而AB作为两点之间的直线是小于两点之间的线段是小于AB这个弧的，因此BCB小于ABAB小于弧AB因此有sX是小于X的。同样的三角形。

OA呃三角形OAD这个面积是大于OAB这个弧这么一个扇形面积的，我们就可以推导出来X是小于tine X的。这在X的领域是正确的那我们两边同时除以sine X就得到这样一个式子，稍做整理得到这样一个结论。

我们会发现，当X趋近零的时候，cosine X的极限是一，而右边的极限本身是一个定值一，所以sine X除以X在X趋近零的时候，极限就是一，这是一个非常简单的利用两边加定理的一个结论。

而这样一个公式其实是告诉我们了，三角函数和多项式之间的极限关系，我们就可以利用这样一个极限去做很多很多题目到底应该等于几呢？我们还可以再来探讨另外一个话题。比如我们可以给定Y等于log。

以A为底X的对数。当A取2A取3或者A取1。5的时候，总可以画出这个对数曲线，它的函数图像来。这样这个绿色的这条线就是一。5的底数，这个紫色的就是二的，同样这个橙色的是以三为底X的对数。

我们会发现这样一个函数曲线，当X等于一的时候，显然Y是横等于零的，它是过这样一个X等于一Y等于零这个点的。在这一点处，不同的函数就有不同的斜率。那么说我们能不能找到某一个A，使得某一在这样一个A的时候。

在这里的斜率恰好为一呢？好，我们来看一下这个话题应该如何去做哦，这个代码是我。用python做的这个函数图像的所有代码，大家可以试一下。我们假定我们要取的那个比是A记作FX。

那么说我们任取一个德尔塔X比较接近于零的时候，那这样FX加德尔塔 X减去FX除以德塔 X，就是在X处的它的割线。当X趋近于零的时候，这就是斜率了。我们代入log log以A为底X对数得到这个式子。

根据对数的法简单的法则，两个对数的差等于它们的除法，然后再取对数。而这个东西这是德尔塔 X。分之一把这个可以放在指数上去得到这样一个结论。既然我们想去考察它等于一这样一个值，它如果等于一的时候。

显然这样一个值就应该等于A。因此我们想做的是当代尔塔X趋近于零的时候，这样一个东西趋近于A。好，我们让N分之1让N无穷大的时候，N分之1就能趋近于0。因此我们要探讨的是，当N趋近于无穷大的时候。

这样一个值极限应该等于什么呢？事实上这个极限大家已经很应该是很清楚的。在本科的高等数学中已经是学过它等于E的。那么说我们简单的看一下它是如何做推理的。好了，我们现在呢就构造一个数组，记作。呃。

记作一加N分之1的N次幂。然后呢，我们不加证明呢，先给出一个。呃，一个极限存在的定理就是如果一个数列是单调有界的，那么说它一定是有极限的。把它做一个简单的推论，就是如果一个数列是有上界的。有上界。

但是呢它还是单调递增的。那么说这样一个数列就是有极限的，我们不加证明的来使用这个极限的存在定律。我们利用刚才构造好的这个数列XN等一加N分之1的N次幂，利用牛顿二项展开得到这样一个式子。这是直接展开的。

事实上这展开了N加一项，从零次一次到N次幂。然后呢，CN一可以写，这就是NCN2是二的阶成分之N乘N减1CN3是三的阶成分之，N乘N减1乘以N减2如此等等都去展开。然后我们来依次化简这个N和N消掉了。

就是一这个N的平方消掉一个和这个N，因此剩下的N减1N减一除以N就是一减去N分之1，这个N和这个消掉一个成平方，这就是这个N减一除以N是一减N分之1，这个N减2除以N是一减N分之2，如此等等正常去计算。

我们会发现这样一个值是小于一的，把它放成一。这个值是小于一的，把它放成一，这个值是小于一的，把它放成一。所以说我们就把这个值放大了，这是一个小于符号。而这个东西我们当N足够大的时候。

N的阶成是大于二的N减一次幂的。因此我们就可以把它换成这样一个式子。而换上它之后，我们会发现它其实。它的从第二项开始到后面所有的项是一个首项是一，公比是2分之1的一个等比数列。我们可以求它的前N项和。

我们就能整理得到这样一个式子，加上这个一得到它这个值显然是小于三的。所以我们会发现任意的取N这样一个数列，XN都是小于三的。因此这个数列是有上界的。第二步，我们再来看一下XN可以写作这样一个式子。

这是相等的。那么说当N换成N加一的时候，是这个值，它把这个波浪线里这个大的式子所有的N都换作N加一得到这样一个值。我们会发现，除了前两项这个定值以外，第三项的这个值。和这个值相比，N加一是比N要大的。

所以第三项的这个N加一这个项是比N的这个项要大的。每一项都比他的各自的项要大。这个是小的，每一项都是要变大的。而我们会发现最后还多出一项来。这一项第这是第N项，这个是第N项，这是第零项了。

然后这一项还是多的，因此XN加一一定是单增的。这是一个又单增又有上界的一个数列。因此，根据极限的存在定理，这个数列一定是有极限的。并且我们知道XN其实这已经有一个2了。XN是一定大于呃。

X在这是等于二的，所以XN是严格大于二的，而XN是严格小于三的。所以说这样一个数列的极限，虽然我们不知道它的值具体是几，但是一定是从二到三的某一个数。好，既然如此，我们不妨把这样一个数记作字母一。

因此我们就发现，根据刚才我们给定的这样一个展开，这个数组它是单调递增，有上界。因此我们记做字母一。这是我们证明了当N是整数的，是自然数的时候，它是一定是成立的。如果这个N换成XX属于实数呢。

那么说对于任意一个实数X，我总是可以找到一个整数N使的X大于等于N小于等于N加1，这很自然是可以得到的。比如3。2，可以找到它是大于等于3，小于等于4的，5。0是大于等于5小于等于6的，总是可以办到的。

因此我们可以得到这个式子。因为这个X是比N要大的，比N加一是小的。而左边这个式子经过一个简单的。数学代换能够发现它的极限就是一右边这个式子经过简单的变化，发现极限也是E。我们根据两边加定理。

中间这个式子的极限一定就是一。所以说这个X当它是自然正呃实数的时候也是成立的。这就是我们在微积分当中。常见的自然底数意是如何？把它给构造出来的。他可以看作是一加上。一的节省分之1加上二的节省分之1。

加上三的节省分之1，一直加到N的节省分之1。当让N趋近无穷大这样一个无穷的。数列它的和就是一。好了，我们现在呢简单来跟大家看一看导数的概念。最简单的来考虑导数可以看作是曲线的一个斜率。

它可以表征的是曲线变化快慢的一个度量。另外呢导数是可以继续求导数的，就是二阶导数。二阶导数它表示是斜率变化快慢的反应。还记得我们在高中的时候，老师经常说过的吗？如果这是一个实际的一个运动轨迹。

那么说加速度的方向总是指向这个轨迹凹的一侧，我们无法断定这个加速度是朝横着朝朝左还是竖着朝下还是斜着朝向西南方向的，但是我们大体能判断一定是朝着凹的一侧的，但是。他一定不会朝向东北方向。

这是加速度它的特点。因此，这个二阶导数它其实是曲线凸凹性的一种反应。另外呢，我们往往把二阶导连续的这种曲线叫做光顺的。这是关于二阶导的概念，它事实上是我们在做凸函数凸优化的一个非常重要的概念。

我们后面会提到的。另外呢，我们根据刚才给计算出来的X奇无纳的时候，这个极限等于E可以得出FX等于login X的时候哦，login指的是log以E为底X的对数，我们就简记作login X。这个东西在X。

等于一的时候，其实它的。导数正好为一，所以FX的导数是X分之1的。我们根据这样一个结论，以及换体公式反函数求导各种各样的工具，就能够得到其他的初等函数导数，能够得到这样一些内容。

另外呢导数如果是两个函数的加和的导数等于各自的导数，各自的导数的加和。如果是乘积的导数等于这样一个东西。好了，我们现在呢重点关注一下乘积这么一个东西，到底有什么有趣的事情。

我们根据这个事情把它其实这个事情是关于X求导了，所以我们把它写开写成U乘V对X求导数。其实根据这个式子是得到这个内容的那既然如此，我们对这个式子两边都积分。是成立的，左边这个式子积分就是U和V。

这个积分就是它这个积分是它。那么这样的话，我们把这个U对DV这个积分就是U乘以V减去这个东西。因此，这就是分布积分的方法的基本的做法。比如说如果让大家求一下login X的积分的话。

我们就可以利用分布积分法。login X和这个X把它拿出来，把login X放后面去，X放前面来得到这个式子。而Lin X微分是X分之1乘DX，而X和X分之1乘积是一，这就是对一求积分。

就是X本身这个分布积分就完成了这样一个积分的一个内容，是一个非常重要的一个手段了。另外呢就是微分是有很多很多应用的。比如我们举一个简单例子，如果说给定FX等于X的X次幂。

我们要求X是大于零的这样一个函数。那么说FX它的最小值是什么呢？事实上我们会简单的发现，当X足够大的时候，比如说X等于234，比如不更大的时候，二的2次幂三的3次幂4的4次幂。

这是一个增长速度非常快的一个函数。事实上，当X比较小的时候，比如X等于0。01的时候，0。01的0。01次幂，是比0。1的0。1次幂还要大一点的。事实上，它其实是一个先减后增的一个函数。

这个题目是让我们求一下X等于几的时候，能够取得它的最小值呢？我们会发现这样一个函数，其实是底数和指数都是有关于X的情况的。X的值的，因此它是一个幂指函数。

刚才我们给定的常见函数的导数没有有幂函数有指数函数，但是幂指函数应该如何求呢？实实上它的内容可以直接使用取对数的方案把它解决。另外呢就是我们多说一句。大家能算一下N的log以E为底。

N的对数分之1等于几吗？它的解决思路跟这个是一样的，大家可以自己思考一下，它是。在算法领域做跳表的一个理论分析的时候，出现了一个值，很有趣的一个值。事实上，假定等于T两边取对数就能解决出来了。好了。

我们把目光回到FX等于XX逆如何求最小值的问题？假定XX幂它记作T这个T是关于X的一个函数。好，我们两边取对数，因此左边就是login t，右边这个login，我把这个X拿下来，就是Xlogin X。

我们两边同时对X求导数。login X对T求导，我们就先对它求导，就是分T分之1，然后T本身是X的函数又加了一个T的导数。这个东西对X求导数，我们先把这个X求导数剩下的login X。

我们再对呃login X本log X求导是login是X分之1和X消掉，就是一，这是得到这个我们现在呢先让它求注点。然后观察驻点的值。注点就是导数等于零的那个那个点，导数等于0。

而这个T是等于X的X次幂。X在大于零的时候，这个值一定不能等于0，所以只能是要想使的T的导数等于0，这个右侧这个值必须等于0。这个值等于零就意味着logX加一等于0，能够解出X等于一分之E的负1次方。

事实上我们根据刚才的分析，这个函数在X大于零的时候，这XX幂，它是先减后增的一个函数大体的这个函数图像了。那这样的话，其实当X等于E的负1次方的时候，真的就是取一个全局的最小值，我们把它回代回去。

就能求出来最小值是E的负E分之1次方。他的解决思路其实就是直接取对数就能够后面就简单多了。好了，我们现在呢看一下这个微分可以如何应用呢？比如说举一个例子，事实上N的阶乘。当N趋近无穷大的时候。

这是一个增长速度非常快的一个函数。如果说对于这样一个N的阶乘取一个对数呢，这样一个东西，当N趋近回大的时候，它又是一个什么样的增长规律呢？事实上它大体相当于这样一个值N乘logN的规模。

为什么是这样子呢？我们来。不严格的来去简单的看一下他的一个。思考的方方法。N的阶乘取对数，N的阶乘可以写成。12一直到N，我们既然取对数，就可以写成log所有值，然后对它取加和，因此得到这个式子。

这是对数的基本的性质。既然是loginI一到N所有值的加和，我们来把这个对数画一下。大体是这样一个函数图像，一的时候是它二的时候大体是这个值，三的时候是这个值，四的时候是这个值。

我们要求的其实是login1login2login3login4这些值的相加等于几？那么说比如login2的值相加，其实就是这个矩形的面积。login3就是这个矩形的面积，这个矩形所有矩形的面积的和。

这就是我们本身要求的这个值。而这样一个矩矩这矩形的一个和，可以大体近似上看成是从一到无穷大的时候，这个函数图像的下方区域的面积用这样一个积分来代替刚才这个加和。这个是有个约等于的。

所以我们说这是一个不严格的一个简单的一个。呃，一个推测。而刚才我们其实已经求完了log XDX它是如何做积分的分布积分法，还记得吗？事实上把它和它提出来，把log X放回去，把X拿出来。

就是这样一个东西。它就是X分之1，然后这个东西从一到N取N的时候是N乘logN取一的时候，这是log一是0就不要了。因此它就是N乘logN。而这个式子它其实就是X嘛，所以它就是这是N减一，这是个负号。

所以是负的N加一，当N趋近无下的时候，事实上一就可以省略掉了。因此是这个值，也就是刚才我们给到这样一个结论。这就是我们利用了积分的一个性质来大体的推断一下N趋年物价的时候，它大体的增长的方向和规模。

另外呢，如果说一个函数FX等于Z的时候，这是一个一元的。事实上我们也可以做多元的。比如如果Z是关于X和Y2元的一个函数，并且如果在某一个点PXY处，它是可以微分的。那么说我们就可以计算它的导数。

这个导数是需要沿着某一个方向来去做。导数的，因此它是一个方向导数。假定说这个方向，它是从X轴开始转到这个方向L的那个旋转角是X，这个是YZ是垂直纸面向Y的一个方向。那么说X假定L是这个方向。

这个就是那个斐角，如果给定这个斐角之后，那么说它的方向导数其实是这样一个值的，这是方向导数本身它的。结论。

这个东西我们其实可以写成偏F偏X偏F偏Y这样一个航向量与cosine斐sine斐这样一个列向量的点乘。是一个意思，我们会发现这样左边这个值其实是没有是只和F函数值和XY这个自变量有关的。

右边这个只和这个。方向L有关的。当cosine犯。正好等于偏F偏X，而sine斐正好等于偏F偏Y的时候，这样一个点乘值是最大的。而这样一个最大的值，就意味着它的方向导数值最大。

因此也就是它的数值变化最快的方向。因此，这样一个值就是我们把它叫做梯度。也就是刚才我们说的函数在这一点，它的变化是最快的。当然我们可以做一个形式化的理解。

假定说我们把Z等于HXY看作是一个在X轴跟Y轴所决定平面上的一个山的话，Z是它的呃山峰的那个空间点的值。那么说在X型Y0这一点的梯度，其实就是沿着这一点，它的坡度变化最快的方向，也就是那个梯度方向。

我们有时候记做这样一个记号，这是关于或者是这样一个记号，这是关于梯度的这么一个内容。事实上，这往往我们沿着七度做下降，去求解西塔的局部最优值的时候，利用的就是这样一个原理。当然，如果我们不是沿着。

真正的七度方向去做下降。如果沿着跟七度成一个某一个角度呢，下降速度又如何呢？大家可以简单思考一下，事实上结论我们已经说过了，就是前边这个值。好了，这是多元的情况。另外呢我们看一下啊凸函数的概念。

现在假定某一个函数F，它的定义域本身是一个凸的，然后呢给定定义域中的任何一个值X跟Y。给定某一个C塔是从0到1的。那这样西塔贝的X和一减西塔贝的Y，其实是相对于这是横轴，这个是X点，这个是Y点。

这个西塔X加一减西塔Y其实是对X和Y做了一个线性的加权，然后这样一个函数值，这样一个定义域的值取函数值，可能是在这儿的。然后这个是FX，这个是FY对这样一个值做一个线性的加权。然后应该是在这儿的。

因此我们发现这个值如果永远比我的函数值是要大的。这样一这个定义就表示了这个函数F是一个凸函数。而这样一个东西，其实在几何上的意思指的就是函数的割线永远位于函数的函数图像的上方，这是凸函数的定义。

当然多说一句，在机器学习的领域里边，这个概念是没有歧义的。在。高等数学上，有些人把这样一个函数，比如Y等于X平方。事实上，在记忆学习中把这样一个图像叫做凸函数，这是凸的Y等于负的X平方。

这样一个图像是凹的。这个在记忆学习中是没有歧义的。但是在。这样一个定义，其实跟我们的理解直观不是非常的接近。这个东西在进行中叫做叫做out这样一个图像叫做to的。这是我们多强调一句吧。好了。

我们现在呢其实如果把刚才那个割线让Y去。这样一个函数图像，把这个Y去接近于X就会变到这样一个事情。因此我们又得到这样一个简单的结论。如果F是一个一阶可微的。

并且F这个东西它如果是凸函数和它这样一个式子是完全等价的。也就是在某一点处，我们做它的割呃做它的切线，这个切线永远位于函数图像的下方。这就是一阶可危。它的意思。比如刚才Y等X平方，我任取某一个点。

那么这一点做函数的切线，这个切线一定是位于函数图像的下方的。因此，我们可以把这样一个内容看作是一阶的一个台了展示，其实就是这样函数的一个全局的下估计，它是一个下估计。并且在所有的函数域上都是成立的。

所以叫全局下估计。另外呢，我们如果有一个函数，它的一它的展示总是一全局下估计。那么说这样一个函数事实上一定是凸函数。这么一个内容呢，其实我们可以更多的放在。凸优化的领域去理解，或许更加的认识清楚一些。

我们会后面会谈到支撑超平面。谈到更多的关于函数的上镜图等等的关系，我们再去进一步讨论这样一个内容。另外呢，如果一个函数是一个二阶可谓的，那么这个函数F是一个凸函数。

当且仅当它的二阶导大于零或者二阶导的矩阵，黑色矩阵是正定。当然如果是大于等于0，半正定就是。呃，刚才那个函数是可以取等号的，如此而已。呃，这个记号其实指定的是这样一个值，它是一个。

半正定的它就类似于大于等于在一阶上就是大于等于了。比如说Y等于X平方这么一个函数，它的二阶导其实正好比方说它的一阶导是2X，所以二阶导是2，这个二呢是严格大于零的。所以原始的函数Y等于X平方。

就是一个凸函数，就是这么一个直接的一个证明方式。如果F是二阶可为的，这是一个重要条件，二阶导大于0，所以二阶导表征的是函数的凸凹性。事实上有很多很多的函数都是。wo函数。比如说。Y等于二的X次幂。

这样一个函数图像其实是这样子的，这是二的X幂的图像，它其实是一个凸函数，大家可以把它的二阶导求一下，就能发现大于零就能得到这个结论了。事实上不只是二，我们取一个E都是可以的，取任何一个。

指一个一个值都是可以的。另外呢，幂函数里边并不是所有的幂函数都是凸函数，这里边只有当A大于等于一，或者A小于等于0才是。比如Y等于X的0。5次幂就不是了。因为它的函数图像是这样子的。

这个函数就不是凸函数了。另外有各种各样的凸函数，大家可以看一下这个罗列的内容。我们利用刚才的凸函数，其实能够直接给出jason不等式这样一个内容。而这个东西它是这么来表达的。

相当于把凸函数的概念反过来说，就是如果F是一个凸函数的话，对于任意的给定一个X跟Y，它都是在F定义域上的。都是在X的定义域上的。那么说某一个西塔，它是从0到1的时候，那么说这样一个。

值是小于等于这个值的这其实就是F是凸函数的定义本身了。这个是C塔呃给定一个值，然后有X有Y2元的情况。如果把它做一个简单的一个推广。我们取K个X1X2到XK，而这里边西塔一和西塔AK的加数要等于1。

另外呢要求它们大于0了，因为它是从0到1的嘛。这样子其实是相当于做X1到XKK个值的一个线性加权，仍然是小于等于函数值的线性加权的。好，我们可以把它做一个这样的理解。

西塔一到西塔K既然都是大于零小大于等于零，小于等于一的一些数。我们就可以把这样的西塔看作是某一个概率分布，这个概率分布，它呃西塔一西塔2到西塔K，它都是某一个值，这是呃这是西塔，这个是概率。

那么说这其实这样一个值C塔1到C塔K的这个取值。取某一个从零到一的值，其实对应的就是一个K点分布。当然这个概念是我从两点分布做的一个概念上的一个推广了。事实上这样一个K点分布。

如果K是把它变成连续状态呢，那样这样的话，西塔就变成一个连续的一个概率密度了。因此，我们得到这样一个结论。如果某1个PX它是在定义域上是大于零的，大于等于零的，并且PX满足满足。概率密度的基本性质。

它的在定义域上的积分是等于一的。将刚才这个离散的情况就能够写成这种连续情况。左边这个。就是这个事情本身，而右边这个就是对每一个值做它的加权，每一个值做它的这个PSX的加权。

对所有值积分仍然不等号方向是不变的。我们对这两种情况做进一步的分析。X1到XK相当于我是做的西塔IXI的加和，这其实是对XI在西塔K给定的这样一个概率分布上的X的一个期望，这个也是一样的。

这个东西对它求。函数值，这个是对FXI对于西塔I指定的值求期望，因此是FX对它求期望。这样一个值是小于等于这个值的。因此这样一个值一个。公式就能够写成这样子的结论。这个意指的是求期望。

而连续情况其实分析情况是一样的，仍然可以得到这个结论。这个就是在用真的不等式和概率论做一个结合，得到了一个非常重要的式子。只要F是一个凸函数，一定有这样一个式子发生。好了，那这样一个式子有什么样的用呢？

事实上，世界上几乎所有的不等式都可以看作是给定某一个合适的凸函数，利用jason不等式推导出来的。比如常见的给定A和B都是大于零的时候，A和B的算术平均值是大于等于它的几何平均值的。

我们其实就可以看作是取Y等于负的log以E为DX对数，做这个函数是一个凸函数，把西塔等于0。5代入到刚才的基本的这种不等式，就能够推导出这样一个结论来。是可以这样做的。

我们再利用这个式子还能够做一个更有趣的一个结论。比如说P和Q都是两个。概率分布。那么说这两个概率分布能不能求它的距离呢？我们一般用KL散度这么一个概念，或者叫相对熵。它的定义是这样给出的P和Q求它的。

呃，distance求它的这个相对商。那么说我们是给定这样一个结论，给定这样一个定义。这个定义其实我们可以看作是对这样一个函数，我们把它记作刚才那个FX对这样一个函数求关于P这么一个分布的一个数学期望。

因此可以记作exspecction，记作一个期望。关于PX求期望。对这个东西对这个FX求期望这么一个记号。好了，我们现在想大家证明这么一种定义方式，一定是大于等于零的。一定是这样子的。为什么呢？

我们可以这么来看。根据刚才这个定义，我们可以把这个这是P，这是P，所以把这个P反过来，这多了一个括号。而我们再来看这样一个式子。这样一个值对它求期望。所以这个东西是关于它的，是对函数值求期望。

我们如果把这个log拿出去的话，这个是它的定义定义那个自变量的值。我们说对自变量的值求期望再求函数是要变小的。因为这里边负的logX是个凸的嘛，因此把这个PX拿到里边去的话。是对应左边这个值。

这个对应的右边这个值，因此上面这个值是要大，底下这个是小的，这是一个大于等于的符号。而这个值其实P和P消掉了，就是Q。对所有的X求积分的话，这个值是一，这个是一的话，这个值是零嘛。

因此这个值是大于等于零的，就推导出来了。当然，如果大家觉得这样推导有一点点的思维上的麻烦的话，大家可以直接给出logt函数曲线。然后看一下原来割线一定位于函数下方也是能够推导出来的。好了。

这就是关于ja份不等式凸函式的一个简单应用了。另外呢就是我们现在做一个简单的总结。首先我们会发现以应用为目的去做的高等数学其实并不是难。我们几乎所有的问题都可以通过我们熟悉的结论非常细致的推导出来。

另外呢我多说一句，就是如果以机器学习的角度来去看待数学的话，像刚才我们严格给出了它的定义，它的极限等于E。这个推导本身倒是没有很重大的意义了，只是掌握这种思思维方式，能够帮助我们锻炼思维就好了。另外。

关于图优化的更多的内容呢，我们会单独有一次课来详细的探讨。今天算是开个头。好了，我们今天的大体就把内容跟大家聊完了。如果有更多问题呢，欢迎大家在主来EDU我们的社区上呃发帖子。

我们共同来探讨更多的有趣的话题。

人工智能—机器学习中的数学（七月在线出品） - P13：协方差 - 七月在线-julyedu - BV1Vo4y1o7t1

啊，我们如果是做两个随机变量，一个是X减N减X期望，一个Y减Y的期望，它们的乘积再求期望就叫做X跟Y的斜纺差。它们是在一起的对吧？呃，另外呢显然根据定义哈，它是对称的，然后也有各子各的式子发生，对吧？

😊，这个咱就不说了，重点看一下最后这个式子。2个XY他们的斜方差，其实根据这个定义，马上能得到等于他们的乘积，减去他们各自的期望的。呃，他们成绩的期望减去他们期望的各期望的成绩，对吧？

大家还记得刚才我们说的吗？X跟Y如果它们是独立的时候，EXY是等于EX乘EY的。对吧这是刚才我们给定的对吧？那那就意味着如果XY他们之间是独立的，它们的斜方差是等于零的。对吧那么说斜方差等于0。

我们并不能推出他们之间是独立的。因此我们就能说什么是斜方差了，对吧？我们现在来说哈，首先他们独立是有这个事的。刚才解释过了，这是我们在期望时候说的。而根据这样一个事的发生哈。X跟Y独立的时候。

他们的方差是等斜方差是等于0。但是。反之是不不对的，就是X跟Y他们独立这个潜力是太强的。我们做一个新的定义，就是如果说XY他们的斜方差为0，我们称XY不相关。这是给出两个概念哈，一个是独立。

我们是从概率两合概率边缘概率做出来的。不相关。我们是根据它的斜方差是否为零算出来的对吧？从这儿呢大家可能还是对斜方差模模糊糊的对吧？我们再进行对斜方差进行分析哈。斜方差既然叫这么个名字。

大家感觉到啊它其实是两个随机变量，具有相同方向变化趋势的一种度量。就是你比方说假定说X是是我们如果简单画到轴上的话啊，Y把它画到轴上的话，如果我们能够把XY共同采上得到值的话，如果说X变大，Y也变大。

或者X变大，Y减小，它们的趋势如果是相同的，那么说它们的斜方差就是大于零的。如果它们趋势相反的，它们的斜方差就是小于零的。如果说一个X变大，呃，是沿着这个方向去变大Y呢沿着它的垂直方向进行变化。

它们之间是完全在各自的维度上进行呃变化进行随机的选择。那这样的话，这个时候X跟Y它们就是不相关的。这是他的。我们可以这么来去看他的这个意义哈。我们进一步来看这看这个事情哈。

就是两个随机变量的斜方差是否有上界呢？对吧两个式因为斜方差是不是有上界呢？其实是有一个定理保证的。如果X它的方差是西igma一的平方，Y的方差是西igma2的平方。那么说X跟Y的斜方差它的绝对值哈。

因为我们刚才说过了，它与可能取正可能取负，表征的是它们的变化趋势相同和相反，对吧？那么说它的这个绝对值是一定小于西igma一乘西igma2的，大家用那个二次方程其实能够证明这个事情。然后呢。

另外更能够证明一个重要结论，就是X跟Y如果是线性关系的时候，比如说X如果等于A倍的Y加上一个B的形式，这不线性关系嘛，那这样的话，它就能够取得等号。不管是这样上还是这样下都是可以的哈。

这个证明大家翻开任何一本概率证书都能够找到它的解释哈，咱就不再统一做这个事情了哈，来照结论自己去做这个证明就好了哈。任何一本概率论证书不出意外都会给的哈。那我们现在就想了，他我们给出这个上界。

我们可不可以做一点点文章呢？既然这么一个值一定是小于等于他们的乘积的。ok我们利用这个结论，我们去呃这里我加了一页哈，我加了一页这个片子，我们先说这个事情哈，就是说呃刚才我们那个这个定理哈。

其实做了什么保证呢？因为他们XY是线性关系的时候，他们之间是等号成立的对吧？那其实就意味着刚才我们一直所说的那个不相关。其实是一种线性上的独立。因为如果是可以写成线性关系，他们之间是相等。

他们之间的协换差能达到最大，对吧？他们之间是最最。最这个相关的，我们如果用一个自然元表述哈，如果它等于零是最不相关的，所以它本身就是一个呃线性的独立。对吧所以说呃所以说不相关仅仅是在线性层面上是独立的。

如此而已哈，比如说X跟Y他们如果是不相关，说明的是线性独立，但是他们可能有其他的函数关系。二次方。对吧比如sineX等于Y等等等各种奇怪的关系哈，对吧？呃，所以我们不能说它不相关就一定独立。

但是独立真的一定不相关，对吧？呃呃，独立不相关怎么证明啊？很正常嘛？因为独立的话，那么EXY是等于EX乘以Y的嘛，我可一减就等于0嘛，对吧？所以是不相关的，这是可以证明的，反之是不能证明的。

反之我们只能说不相关，它是在线性层面上是有是没有关系的对吧？呃，但是虽然对于一般结论是这样子的，但是对于特殊情况，比如说二维的这种，如果X和Y它们都是正态分布的那么说X跟Y它们不相关。

就等价于它们之间是独立的。大家想想2元的高高斯分布，它们的那个函数，它的那个呃概率密度函数哈，那个柔等于0，那个柔其实就是它们的这个哎一个概念哈，我们等会儿马上说哈。刚才我们其实给定的是什么呢？

就是斜方差，它的这个值的绝对值一定是小于等于它们的方差的。呃，乘积，然后东西对吧？那么说我们就用这么个东西去除以他们各自的标准差来乘积，对吧？这是标准差乘积嘛。那这个值按照我们刚才那个上界的那个定理。

其实一定是绝对值小于等于一的。我们把这样一个柔，把它叫做相关系数。有人也把它叫做皮亚逊相关系数，一个东西哈，就是相关系数，并且根据我们上界定理的保证X跟Y，它们是线性关系的时候，这个等号是成立的。

对吧这是他们之间的关系哈。所以说这个斜方差和相关系数，它们之间就差了一个底下的一个类似于硅一化因子的东西。对吧他们的正负号也是同向的，他们只是除了一个数而已。

所以相关系数可以认为是在标准尺度下除以标准差了嘛，是在标准尺度下的一个斜方差。对吧所以上面我们会谈到说呃，如果他们的这个斜方差是等于零的，那么他们就表示是呃不相关的。

我们也可以说他们的相关系数是等于零的，那么它们的解是不相关的。所以说上面关于斜方差定义哈，都可以把它迁移到相关系数上来。这个意思哈，所以他们相除，他那商业定理是搞这个事情的哈。好了。

这个呢就是关于跟大家有呃，我们跟大家分享了一下关于这块我。假定大家。嗯，了解倒是但是不太清楚的地方哈，所以我假定就是说的详细了一点，大家看看这一块有什么问题吗？我们来共同探讨一下哈大家的问题哈。😊，呃。

哎，小明哥说的是斜方差表示XY的相关性。没错，没问题哈。因为我们这解释了，对吧？斜方差一定意义下可以代表它们的相关性，对吧？除以他们标准差就是它的相关系数了，对吧？😊，嗯。和前面那个包含的信息量有关吗？

有关系的，就是咱今天讲的这些东西哈，跟后面咱的资疗商里面讲那个商的时候有点关系的。斜方差和相关系数是一回事吗？显然不是一回事，他们之间有一个呃有一个系数，对吧？有一个规划因子，就是他们可以看的很像。

对吧？很像。呃，有上介啊，这个解释过了OK哈，这样子咱就是这个事情哈，我们简单的做一点点的扩展。刚才我们讲的是两个随机变量。如果是有N个呢。对吧那这样的话，假定说有X1X2的XN。

这里一共有N个随机变量，那就形成一个随机的向量，N个对吧？根据刚才我们结论，任何两个元素，XI跟XJ它们都是可以算斜方差的是吧？那这样子我们就可以形成一个N乘N的一个矩阵。

这个矩阵的第I行第J列就是XI和XJ它们的斜方差形成这么一个斜方差矩阵大C对吧？就这么计算出来的哈，因为我们知道斜方差嗯，I和J和J和I它们是相等的，所以斜方差矩阵一定是一个对称阵。

对吧大家记住这个结论啊，斜防栓取阵是一个对称着。另外我多说一小句哈，就是把这个随机我们不是X1X2的XN吗？我们把这个随机向量XI哈，因为XI本身哈呃拿出来把它写成一个列向量，对吧？就是X一是一列。

X2是一列。X3是一列，到XN是一列，因此其实我们会形成这么一个矩阵，大X。对吧这个大X其实是一共有N列的多少行，咱不管，假定说采样了M个哈，我们不管它，反正总之是有若干个列数，一定是N个。然后呢。

我们让这么一个东西哈，对各自的这个列都去均值了。因为因因为均值如果不为0，我们就把它呃都减去各自的均值，对吧？那这样的话。把这个东西做一个去均值之后哈，把这个大X记做XEY这么东西。

那这样的话把它做一个转质。你会想想哈，把它做转质，我们写到这儿哈，然后这是第其实这样写，是一个第一个这样子是第二个随机项随机变量，第三个随机变量到第N个随机变量。

那么说这里边的这个第一行和第一列它相乘不就是这个东西嘛，对吧？所以其实这个就是第一行第一列那个值，第一行乘第二列不就是C一2嘛，对吧？第一行第三列也一样的。所以说这么写完。

然后除以前面这个N根据我们的定义，其实它就是斜方差矩阵。对吧大家先有一个简单的一个想法哈，所以我们写出这个它的举阵形式来以后哈，或许对我们做推导是有用的。对吧这个这个随机向量就把它写成一个矩阵的形式。

矩阵就可以做这样的运算，然后得到的本质就是先方法矩阵。另外呢我们有时候把不除N的这个东西叫做呃比方说把它叫做这个scatter那个字我们嗯不太好说，叫什么哈，就scatter那个字哈。

就是可以把它叫做这个。呃，离散度或者叫这个呃类似的一个名字哈，就是比方说叫。叫叫散度矩阵或者叫什么东西啊，咱那个后面再去给他一个一个名字就好了哈。也是有一个定义的哈。

我们后面这一部分呢大概是在PCALDA那一部分会再次看到哈。呃，现在呢我们跟大家说一说一个思考题。刚才我们其实给定了斜方差矩阵是个对称阵。请问。这个对称阵我们能够求它的特征值，对吧？

那不同的特征值就有不同的特征向量。那么说这个特征向量会不会真的就正交了？如果有这个结论的话，我们就把这个对称阵跟这个正交镇不就建立联系了吗？不就能够做很多很多有趣的事情了吗？

对吧所以说它里面会有一些事项，大家可以思考一下这个问题哈。😊，好了，这是关于这个事情啊，大家看有什么问题吗？😊，嗯，miss东说这X等于它是不是大部分的推导中，通常S1S2都会写成列向应的形式呢？是的。

就是如果我们没有给定一个向量，是行向量还是列向量，你就把它看是个列向量，一般不会错的。就是如果他唱下文没说，就认为他是列向量哈。

人工智能—机器学习中的数学（七月在线出品） - P14：中心极限定理 - 七月在线-julyedu - BV1Vo4y1o7t1

。铅笔写不不等式。这个东西其实呃它给出的就是方差的实际的物理意义。就是X它的方差越小的话，这么一个事件它的概率越大。这个事件什么意思？这个事件指的是X取值。集中在期望附近的概率。对不对？

就是说你方差越小，这个X越集中在期望附近。我们从一个严格的一个不等式上做了一个证明，对吧？另外呢这个不等式是可以证明大数定理的。为什么呢？我们把这个东西X1X2的XN简直是相互独立的。

那么都加起来除以N得到YN，那么YN减去缪，它的这个绝对值，它是小于不平等值。当NN是无穷多的时候哈，它是收敛的概率一的。这就是大学定理哈，就是如果是实际变量，它们都是相等的，有相同的期望，相同的方差。

那这样的话把它加起来除以N，它最终这个YN它会完以概率一收敛到期望上去。就是方差可能是比较大。但是呢如果你要是把它N个都加起来除N，最终这个东西就稳定了，稳定到期望上了，这就是大数定律。

因为取的又取的多嘛，对吧？这个东西呢其实有一个早期版本哈，就是说呃我们看这个哈哦在后面再是再说了哈。就说我们其实刚才简单说过了，就是说N比较大的时候，这个随机面量它是均值，是无限的接近于期望谬的。

无限接近的意思是有可能有偏离啊，但偏离很小，偏离的概率为0，它可能是这样。对吧呃我画的就是这样一个很尖儿的一个东西哈，这个尖儿特别特别小。就这意思哈，对吧？大家懂的哈。

就是因为以概率一趋进于它不是一定等于它，对不对？指的是这意思哈。呃，另外就是大家能够利用Q求不等式证明大定理吗？大家可以自己试一试哈，直接用我们Y的定义把它带进去，我们马上得到了哈。😊，呃，另外呢。

其实我们通过刚才那个结论哈，其实可以得到一个推论，就是如果我们把那个事件换成两点分布，那这样的话就得到这个事情。就一个事件A它发生的概率记做P。然后呢，重复小N次的这个事件里面呢。

假定事件A发生了NA次。那么NA除以N这个东西其实是事件A发生的频率，对吧？频率减去它的这个概率，它的绝对值是以概率一收敛的。对吧以概率一能够以频率收敛到我的这个概率。因为为什么呀？

频率是我们通过实验能够看到的，看得见摸得着的东西，但是概率不是哈。对不对？概率其实我们从来没有见到过概率。你说我扔个硬币，它朝上的概率是0。5，但谁都没见到过，我们只是扔硬币扔了100次。

发现有49次或者有50次或者51次，它朝上OK我们就大体上去猜测它的概率是0。5。你说概率是什么东西啊？所以说这个公式哈。它的重要性是。他几乎奠定了概率论。非常重要哈。

几乎我们就可以认为这个是概率的一个标准定义，频率近能够接近于概率哈。它它这个共识重要度非常强哈。呃，这个其实是最早最早的大数定理的形式哈。另外呢咱其实这个后面会有一些结论。

我我习惯于直接使用大数定理跟人家解释。比如说咱后面用到这个正态分布的参数估计，马上会看到。然后贝叶斯普特贝叶斯做垃圾垃圾有件的分类，或者是以妈公模型里面做有监度的参数学习。

咱都可以直接用这个结论得出那个式子来，并且解释性非常好，就不用算算了哈。这样子咱那个也有依据，也把这个事给做了，对吧？这是跟大家简单说一下这个情况哈。另外就是有中心极限定理。因为如果说XGX2的XN。

它们是相互独立的，并且是同一分布哈，然后有还是有相同的期望，相同的方差。那么说他们都加起来。如果我减去期望的N倍除以根号N倍的方差标准差，那这样子这个YN最终会收敛到标准正态分布。当然，如果加和本身哈。

它其实也是一个正态分布，收敛于这么一个东西，它俩本质一个东西啊。对吧这就是中心极限定理哈，大数定理和专家定理一定是概率论里面非常重要两个东西哈。但是中心基限定理我们这里面就没法得到没法证明了。

我们只是给出一个形式化的一个说法啊。但是这个这个问题咱就不讲了啊，只是跟大家说一下，在实践当中，我们可以用中心基验定理来做事情。呃，比如说呃答案实践里边哈，有些问题可以看作是各种各样因素。

独立去影响形成的综合反应。我们大体就会认为是服从正态分布的。比如说。我们认为大量用户的耗电量的总和构成了一个城市的用电量，因此城市用电量就服从正态分布。我们实践当中有些问题可能是呃各种各样的观察不到的。

或者是想象不到的，甚至能想象到不能想象到的一些东西，综合反映到得到的东西。比如说误差测量误差，我们就可以认为服从政策分目。这次测的大了，下次特的小了。并且大多数情况之下啊。我们测的那个值是位于真实值的。

附近的对吧？你比方说大家的这个考试成绩，考试成绩，我就可以认为我是有我的这个智商，我我的学习努力情况，我的这各种情况，甚至我这个笔下不下水，我今天是不是拉肚子等等等等等各种因素所组成的对吧？

那这样子一个班的学习成绩。就应该服从正态分。反过来，如果一个班的学生也不服从正派分布，要么你这个发生了大面积的作弊情况，要么这份时题出了有问题。对吧它使得搜索里都发生有偏了。

对吧我们可以这么来反向去解释这个事情哈，它是有一定的。呃，理论依据的哈。呃，当然这个里面大家如果上网去查，会发现一些所谓的反这个大那个中心间定理的一些所谓概念。比如说所谓的长尾分布啊，大家知道就好啊。

实际上理论里面还是以它为呃。为核心嘛。然后呢，后面我们其实会用到，比如说线性回归就会用到最小二成就这么干的哈。

不再说了。呃，这个图其实我们昨天说过了，它本质上就是做的中心极限定理的一个实验。我如果是给定一次的一个均匀分布，从0到1的取1万次，我画出图来是个均匀分布。我把这每1万个这是一这是一个均匀分布了。

我做1万次的值把它加起来除以这个N，这不就我定义吗？

对吧我的定义里面你不告诉我，我把它加起来除以N嘛，这个除以N哈，对吧？然后它一定会服从正态分布的。因此我把它的什么都画出来，真的是这样几个东西。

对吧它是差不多的，它是比较符合我们预期的哈，大家可以随手就能做这个实验哈。

人工智能—机器学习中的数学（七月在线出品） - P15：重新理解矩阵 - 七月在线-julyedu - BV1Vo4y1o7t1

好，我们今天看一下今天的讲课思路。那么我们今天呢首先呢跟大家教科书上不一样，我们重新看一下AX的等等于B。我稍微吐槽一句啊，我个人觉得国内教材，至少我上课的时候，为什么我到现在都没有理解。

为什么要把行列式放成第一章，因为我觉得把行列式放成第一章啊，整个就把这个线性代术给脱节了，我倒不是说行列是不重要啊，但是我实在没有想通，为什么要把行列式放到第一章去讲，在咱们的国内教材。

我也不知道是从哪个教授开始，咱们把行列式放成第一章呢，因为我在国外的教材上面，从来没有看到哪个书把行列式就放在第一章呢，对吗？所以我觉得也很奇怪，这样的话就让学生呢整个就把思维给断掉了，你知道吗？

就对这玩意儿慢慢就产生没有兴趣了。这个我觉得也和咱们国内的可能这个教材编写本身也有一点问题啊，所以我们今天讲课思路和国内教材不一样啊，我们首先看一下AXB重新去理解一下它的行势图和列式图。

由AX等于B呢，我们引出一些重要的概念。包括比如说基线性相关线线性无关这些东西。然后呢，我们有这些基线性无关线性相关，我们引出一个最重要的概念，就是线性代数里面最重要的概念叫做子空间。

我这个因为鼠标啊不太好写，我就主要是讲一下啊，子空间的概念。那么我们对这个方阵呢考虑矩阵的两种形式，一种是方阵的分解，我们叫做特征值分解，我们简称异D啊特征值分解。然后我们由特征值分解呢。

引出对称矩阵的特征值分解对称矩阵就是A等于A的转置的对称矩阵的特征值分解。那么对称矩阵的特征。值分解就非常重要。我们从此可以引入二次型。我们后面来解释一下二次型到底是干什么的啊。

那么是不是我们把这个对称矩阵的特征分解分析完以后，我们是不是就可以把这个子空间联系起来了？实际上是可以的。但是呢我们希望呢用更广义的方式去联系。那么我们就是说刚才这个地方是方阵。

那么如果我们对于任意矩阵的话，我们就会有一个分解就会有一个叫做奇异值分解，那么奇异值分解可以是为是一种万能的分解，它是非常非常重要的，可以解决很多很多的问题。

那么我们有奇异值分解呢就可以把这个子空间的概念给它很好的联系起来。所以在这样的情况下，我们看奇异值分解和特征分解呢又有相互之间很紧密的关系。

那么这两个之间的奇异值的关奇异值分解呢又和AX等于B这个矩阵呢又很很多的关系。所以我们这样的话，我们是不是就把整个的一幅图给大家联系起来了。最后我们大家就想给大我就给大家一副图啊，就能够把这些东西呢。

咱们能够包含进去，我不求今天我们把这里面的每。😊，一个地方都讲通，那是不可能的对吗？两个小时咱们怎么也不可能把两两个学期的东西给他讲完。但是我们呢要把一些最重要的部分，最精华的部分给大家讲了。

那些没有讲的东西不代表说不重要。因为你们实际过程中使用的时候，那些那些我今天没讲的东西其实也很重要。但是呢你把这个总体的这个picture有了一化以后，你就可以去进这个很仔细的去看那些细节。

你就有可能能够完全看得懂啊。这样的话，你就能够把矩证和线性代数这门课完完全全的掌握去了。好，我们今天看一下主要使用的数学符号表。为什么我要讲一下数学符号表呢？因为之前讲公开课的时候。

有人老问我这个T呀H啊，这是啥意思啊，所以我们现在讲完，后面我们就不提了啊，大家特别注意一下RN我们认为是一个N为的时空间，对吧？那么RM乘以N呢，我们是M乘N的一个实矩阵。今天我们全部讲实数。

不讲负数。这样的话就是让大家更能集中集中一下思想啊，因为辅的实际上是实的扩展啊，那么T呢就实际上是矩阵的转制。那么这个DETA呢，我们就认为是行列式，在有的书上呢，我们就写成这样的形式，对吧？

那么CA呢实际上是列空间NA呢我们定义成零空间。然后A的这个上面-一，我们认为是矩阵的逆DIAGA呢，我们认为把一个向量转化为对角矩阵，就是这样的形式。比如说这个向量是123，那么们转进对角矩阵呢。

它的对角圆呢就是123，对吧？然后TR呢是矩阵的tra。我们叫做矩阵的G，实际上就是矩阵的对角源呢求和，对吧？然后H对刚才有人说H那么H实际上是共轭转制，这是对于辅数来说，我说了，我们今天不讲辅数。

这样的话，让大家更能够集中到我们今天所讲的东西来啊，否则会分散大家的注意力，那么你只要把这些搞通了，你后面扩展不是很容易的一件事情嘛，对吧？好，我们今现在来看。Rnk。😡，rank呢就是矩证的制。

有有人说卡有人卡吗？如果卡的话，你可能重新进一下啊，我估计可能应该还好。然后我们看一下这个rank呢，就是矩证的质。好，呃，这个示例表我给大家举说一下啊，就是红色的框，你一定要去仔仔细细理解。

这是最重要的定理或者内容哈。然后绿色的框表示我们举的一些例子。因为上一次有人说哎这些东西数学课的这些东西啊，虽然很有用，但是很抽象，这个没错，那么我们就多举点例子帮助大家去理解，对吧？好嘞。

然后我们现在就开始看第二个线性代数的基本知识。我们从一个新的视角上去看这个问题啊。我们来看，那我们进入正课了以后，就大家随时提问啊。然后我们每一页都展示。暂停一下来回答大家的问题，对吧？

我们看一下这样的一个矩阵，2-111，那么它A属于R2乘2没有问题。它的乘以一个向量XYX属于R，对吧？也没有问题，那么等于B。我稍微看一下，那么B等于R2，那么就是一和5，我们就是R，对吧？好。

我们再来看一个3乘3的矩阵，没什么问题，这是一个3乘3的矩阵，对吧？那么这个向量呢对吗？是R3，对吧？哎，UVW然后等于向量呢，-29这个东西AX等于B，咱们真的是都不知道讲了多少了，看了多少遍了。

对吧？但是我们重新去理解一下。你看啊我们从它的行式图上首先来理解一下，那么矩证相和向量相乘，实际上是第一种方法就是2-1乘以XY对吗？这是第一行。第二行就是11乘以XY，那么等于5。

那实际上就是下面这样的一个方程，2X减Y等于1X加Y等于5。那么可以说如果AX等于B。那么这个它这个解在行式图中是什么意思呢？你看啊2X减Y等于一没问题，是个直线方程，对吗？这个是咱们初中数学啊，对吧？

那么你可以看一下它在X轴上的焦点是2分之10，在Y轴上的焦点是零和5哦，不对呃，是呃在Y的交点是零负1X交点是2分之10，对吧？好，没有问题，那么另一条曲线呢是X直线呢是X加5等于5对吧？X加Y等于5。

好，那么这个方程如果有解，它的含义是什么呢？从行式图中来解释的话，就是这两个直线有交点，对不对？就X等Y等于2和3。好，没有问题。我相信这个是最简单的。那么我们来扩展一下这个上面的这个问题。

我们是把它换成到三维的空间去的话，你看第一个方程和刚才一样，2缪加V加W等于5，对吧？它是一个平面。大家想一想这个平面够不过圆点。这个平面不过原点，对吧？好，另一个平面呢是多少呢？4缪减6V等于-2。

好，大家想想这两个平面相交会产生一个什么两个平面。大家去想一想，两个平面相交，它肯定是一条直线，对吗？对，是一条直线。我第三个方程我没画。因为这个图画上去以后呢，它就太乱了，看不清楚了。但你可以想象。

它其实就是说这个方程有解，就是这个三个平面最终交到一个点上了，对吗？两个平面交到一根线上，另外一个平面和这个线再交一下，它就是一个点，对吗？这就是方程组的有解，它这个解就是一个点这个行式图。

我在这个地方为什么要稍微提一下了，特别重要。这个跟我们图优化这个超平面是一样的。我们图优化中超平面定义成A转至乘以X等于B。你看看A转制实际上就是2-1，对吗？乘以X等于B。你可以想象在二维中。

它实际上就是一条线这个超平面在三维中呢，它是一个平面，对吗？那你想想到四维呢？它不就是一个超频面吗？当然你这个维数往上涂说，我多说一句啊。

咱们线性代数举证你这个维数和咱们物理概念那个维数是绝对不一样的啊。如果是一样的那爱因斯坦。就叫叫气死了，对吧？这个维数呢，我们三维到四维是就是可以说就是一层一层的往上扩，你知道吗？它就是往上扩，对。

它就是超平面，它就是往上扩的。但是我说我们这个维数的这个扩张啊，和物理的那种维数啊，就是包括我们宇宙现在是多少维，咱们都现在都不清楚，对吗？它不是这种三维四维这样简单的往上扩啊。

但是在我们线性代数里好处是咱们把这向量写长一点，哎，三个向量再多写一个向多写一个元素，我们就变成四维了，对吗？这是一个非常好的啊，在线性代数里的这个就可以简单的扩展，就叫所以我们加一。

我们就就叫超平面了。那再加二加3加4都是超平面。但是你理解的时候，你就用三维这个平面去理解就够了，对吗？不需要去想那个超平面到底是个什么东西啊，你就用三维去理解就够了。好呃，这页有没有没问题？

如果没有问题，我们就走下一页啊，因为这一页比较简单，对吧？好，现在我们要从。线性代数的角度上去理解了。咱们明天的课再来讲讲这个潮平面啊，图优化的时候，这个就比较重要了。

实际上就是说这个矩阵相乘AX等于B，我们可以写成第一列，就是第二列等于15。那么XY分别写到前面，那么我们可以认为实际上它是这个列的线性组合，什么意思呢？你看-11在在这个X为Y的这个轴上。

我们可以用这种向量的形式去表示和刚才那种直线不太一样啊，我们就用向量的形式去表示，那么-11实际上是这个向量，然后呢我们这里又有一个向量是2一对吗？就是这个向量是21，然后换在这里，所以可以看到。

因为刚才我们说了XY的解是二和3，所以这个X就是2Y就是3，所以就是把这个向量两倍呢，就是给它伸长两倍。那么这个地方呢三倍呢实际上就是伸长3倍，根据平行四边形法则，这两个向量相加唉。

正好就是这个向量15，对吧？所以没有问题。所以1。就是这两个向量线性组合的结果，这是从矩阵的另一个角度去思考。我们就是大家一定要回到线性代数矩阵上的话，一定要回到这个线性组合这个概念上去啊。好。

那么另外一个呢，三个向量呢，刚才看了其实也是一样的，对吗？我们先把两个向量呢相加，比如说列一和列二相加就等于这个向量，哎，就是这个向量。然后第三个向量呢是204，它的两倍呢就是102，就是这个向量。

所以根据平行四边形法则，它的解呢实际上就是这些向量的线性组合，对吗？好，那么静姐有没有问题？好，怎么理解往上扩啊，怎么理解往上扩，就是相当于你三维。你现在扩到第四维那个平面是怎么想是什么样子呢？

你可以想象啊，那个平面我把它定义成一个超平面无所谓啊。这时候你就不想都可以了呀。比如说X加Y加Z加W等于三这样的一个方程，对吧？从行势图上来说，这个就是一个超平面了呀。😊，对吧okK没问题。

三个直线无解。啊，对，这是这时候就有一个解问题。我们稍微提一下，假如说从行势图上来看，咱们这两个向量如果是平行的。这玩意儿有解吗？没解，这其实就是从行势头引出来了一个东西，就叫做矩阵的行制。

就是说这个矩阵的行实际上是线性相关的对吗？平行了呀。对，所以他就没有解，这是从行上来看，但是我们同时也可以从列上来看啊，对吧？你看啊在这个平面上，因为我们这是两维的。而且这个向量是什么呀？线性无关的。

所以你不管给我个什么向量，我都肯定能够找到解。但是想想，假如说这两个项链今天咱运气不好。咱们给贡献了。你这个方程还有解吗？那我这个我这个B现在假如说是在这方向，你给我怎么找怎么合，我也合不到这个B啊。

对吧？就没有解。那么这个三维这线扩上去是不是其实是一样的一样的道理，对吗？咱们后面还有图啊，再来看看这个线性相关相性五关是什么意思。好了。😊，列向量线性组合组成的平面是不是就是行向量解出来的平面不一样。

我们把这两个平面啊稍微区分一下，你看这个平面呢就是我们传统的初中数学里头定义的唉这种平面，就是真正的这个直线和平面，但是我们在列势图之中呢，咱们是用这个向量的形式去表示的平面，知道吧？

我们把它称为另一种空间，这两种大家不要搞混了啊，你看这个向量是带有箭头了。我们这里头直线是不带箭头的对吗？这只是直线啊，所以大家去想一想，我们现在要习惯用向量的形式去表示这些线性组合，这些不组合啊。

所以是不一样的。但是我们在这里头也会说这两个向量比如说构成了一个平面，这两个向量构成了一个平面，就是这样去说啊，这个是没有任何矛盾的，所以我们现在来看看线性相关和线性无关。

那刚才我们不是已经看到了一些例子嘛，比如说两条我们现在不说这个行势图了啊，咱们就回到这个比如说这两个向量正好是共线的时候，实际上。就是线性相关，对吗？那么我们严格的意义上定义，就说假如说我们有N个向量。

如果他们前面都乘以一个标量，求和以后等于0。当切紧当这些玩意儿系数不等于零的时候，也就是说至少有一个向量可以由其他向量线性表出，什么意思呢？你看假如说这个CL不等于0，那你本身这个相加不是等于0吗？

你做一下一项，哎AL不就可以求出来了吗？对吧？就是说只要有一个系数，我们能找到一个系数，也如就是CR，我们不等于0。好了，那么这几个向量就是线性相关的。那么相对比一下，我们看一下信性无关是什么意思。

线性无关就说。这个玩意儿方程等于0。咱们怎么找等于零的时候，就等等于零这个解的时候，咱们只能找到C一等于C2等于CN等于零了，找不到任何一个非零的数，能让它等于0。明白吗？这时候就是线性无关。

那么你可以从这条线上怎去理解一下这个线性无关，实际上就是这两个绝对在二维里面绝对不贡献，对吧？那么在三维里头的时候，实际上就说哎这三个向量应该是什么？不共面，对吧？在三维里头从向量角度就三个向量。

它正好不在共不共面。因为你平行四线边法则，两个向量相加就可以得到一个向量。那么这两个向量毕竟是共面的对吗？那么另一个向量只要我跟它不共面，在三维里头，哎，我就是线性无关的对吗？可以理解吧。好。

这时我们看一下，如果AX等于零的话，我们把这个矩阵这个向量我们不是可以写进矩阵吗？写成它是一列一列一列的。大家要习惯这种写法啊，就是我们把矩阵分成一列一列的写法。然后AX等于0呢，那只有X等于0，对吧？

这个跟你一样嘛？你不C一等于CN等于0，那这个方程只有零解，那就说没有其他的线性组合能够产生0。那么此时矩阵A呢，实际上就是可逆矩阵，对吗？哎，那么你两边乘一个，你比如说这边乘1个A逆。乘以A。

那么最后就得到X等于零了，对吧？两个当期紧张应该是有一个任意，一个是全部吧。就说至少有一个就可以了，就至少有一个这玩意儿是非零，我们就认为它是线性相关的。只要说线性无关就非常强了。线性无关。

就是说这玩意儿你不管怎么找，我都怎么找出来，我都是等于0。这个系数都是等于，那么我们就是先行无关的。明白吗？这几头还有没有什么问题？好，没有问题，我们就下下一页啊。我们来看一下举个例子。

大家马上就能够理解了。😊，这个现性无关。为什么？😡，完了说了线性。首先我们来看看这个不这个吧，线性相关。线性相关是说从这个条件来说，有一个向量能够由其他限量线性表出。你看啊这个向量很简单。

我们前面这个101这个向量前面乘一个-1。231这个前面乘一个-1，这两列也相加，不就正好等于第三列吗？所以他们的系数就是-1-10。哎，-1-10像这个线性组合以后，就不就等于零了吗？

所以这三个向量就是线性相关的对吗？没问题吧。这个现性无关。你不管怎么讲，哎，这个人这个朋友说的很好，他是多余的，他实际上是多余的。因为由他俩就够了。所以这个多余为什么为什么最后一列是零。

不是最后一列是0，是-1-1，加上最后一列的一，我这个地方说错了，-1-11相加就等于0，对吧？哎，对的。但是第一个很不幸。你不管怎么去找。😡，它前面的系数你总总不可能找到其他的系数，能让它等于0。

除非这些系数都是零，对吧？

人工智能—机器学习中的数学（七月在线出品） - P16：牛顿法与梯度下降法 - 七月在线-julyedu - BV1Vo4y1o7t1

好，现在我们进入这个让大家更关心一点的问题啊，比如说这个算法。刘德法也提出下量法。我们。し啊。就是说为什么要在这个地方讲这个。刘顿法与提不相关法啊。就说他们两个算法的本质其实也是逼近。

就说我们的微分微分的本质是逼近，他的极数也本本质也是逼近啊。然后我们发现哦这个牛顿法和PU加法，它的本质也是毕近。这时候你就看到他们的关系了。所以说我首先我们说一点背景吧。

就是说很多机器学习的问题或者统计的算法呢，最后都转化成一个优化的问题。就是说你可以有一个模型，但这个模型你怎么去。训练它，你最后就是变成优化的问题。就是。昨天的时候那个王老师也讲了好。

他说就是说他是某种这个损失函数，我们这反正靠方式，我不知道这个应该能反映他的绩效值的问题。那我们在这个本科范围内呢，我们考虑这个函数呢，这种函数都是可谓分的，这是非常好的函数。然后。

所以这个我们优化的一个问题是什么？就是对于一个可补充微分的函数，我们怎么去找到的技巧这点。这就基本问题。然后什么叫基于基于点呢？啊，全局全我们分全局几小值和这个局部极效值啊。

全局极小值就是说你对任何一个X。收だ。他的取值。XQ呢都大于等于你这个FX星星。那你这个FX星就是全绩交值点是。全日你这脸就最小的了，就权市最小值。然后局部效值什么呢？就是说哎呀达不到这个全世界最小。

但是呢他在他附近最小就是。我用了一点这个安全调查下，就是说现在于正数打法使它，只要你这个S塔和它离得比较近，进到什么程度呢？比这达塔还小的时候，或者X星星FX星星就小于等于F。X就了对吧？

那这个时候我就说FX这个X星星啊，虽然不是全世界的小，但它在方圆德el塔内它是极效的这叫做局局部局部就这个意思。那不管是全局教值还是全部教值，在我们这个。可求导数的函数身上它这点处的导数一定是0。

如果是一元函数的话，导数。如果是高呃多元函数的话，它的这个P度是0。前面这两个我们可以认为定，后面这个呢其实是一个条件，我们将会利用这个条件呢来寻来找一些这个。啊，算法去找去寻找这第二一点。好。

我们这个局不集决的算法啊。我们介绍牛顿法和西修相法。就是每当你教算法的时候呢，就是稍微先想一下它的这个适用范围，它呃达到的效果是什么。就是就是说比如找几小值吧，优化。那你首先你要问一个问题。

就是它是全局优化还是局部优化。就刚才有一个定义里说了，有全局几小值和局部集小值对吧？那你现在这个有算法的，全全局优化局部优化呢？首先我们牛顿算法就算法，他们都是局部集制。为什么局不及职呢？😡。

其实你想想你知道，因为我们用的是B近。刚才有同学说的很好，就是B近一定要在某一点附近逼近，你不能全局，对吧？既然你是在某一点附近逼近，那你这件事就只在那点附近超使的那既然如此。

你你怎么可能找到全职就要值，你这种方法就能找到机会，对吧？所以说你从他的这个原理上，你马上就可以得出这个了，就你就不需要说非得去把它背下来。然后这个。这两种方法呢还是这个就是说你必须从某一点开始。

所以一定要有知识点。啊，数学原理呢有顿法用二级。72GBG你就等于是你用了这个二阶的拍勒技术啊，这是。包括刚才同学问说机器机什么时候用开的技术了？对你可以认为就是这个例子，对吧？你毕竟用了RGB机器嘛。

那不就是他的技术嘛啊？啊，提提出下降法用的是一介之径，就是说他只用了一届导师，他不用二教。有的法。他这个有一个有一点点这个缺点啊，就是说他对于局局部这个局部上凸的就是他在某些情况下找到极小值。

有的时候他找到极价值，有的时候他找到的还既不是极价值，也不是极小值，是个单点。就是说啊他这个不能保证找极小值，他有的时候有这个问题，这个要推进。他只找那个叫做。提方点我们。

因为叫做st stationary point，就是它平衡的那个点，它并不见得是极大的或者绩效，有可能绩效。提出下降法呢，因为它是下降法嘛，那个你从自面人可以看到，他就一般不会找到最大人士。

但是运气不好的话，有时人也会找到晚点。然后就是他们就是这种算法就并不是十全十美的，我不见得总会给你你想答案。然后当你初始值选取的比较好的时候。他们都会找到绩效值。而且呢牛顿法比齐度下降法速展速度要快。

就当你知道这个算法是干什么的，它的适用范围。效果怎么样之后，你就要考虑这个。他的速度是怎么样的？就是一般讲我们讲收敛速度什么意思呢？就是说你要接代多少次，因为我们是拿一串点去逼近你最后那结果，对吧？

那就是说你到底需要多少个点才能逼竟的比较合理。这个就是收敛速度啊，牛端法收敛速度快的意思呢，就是说它可以用比较少的步数步骤数就可以达到一个比较好的结果。然后它的缺点是什么呢？他前面说了。

他需要估计二级导数，所以那你多算东西吧，计算能力计算难度给大。啊，具体来看一下。就说。这是一个我们经常看到算法的时候啊，你最好是都有这个嗯弄清楚它的使用范围是什么，它是干什么。好，牛肉茶二0不近。

什么叫刘德法呢？我们说明的法有歧义啊，就有的时候大家会说它是用来那个解方程的，就是求函数等于FX等于求解方程的。然后有的时候呢说然做优化的数作法，它俩是一样的。但是我们在这里面我们用这个优化者来说。

因为我们关心的是优化啊。我们关心的是这个优化。啊。所以我们在。呃，牛德码必须嘛就是说我们有一个函数，我们要解决一个问题。FX。请求它极小值点，我们从一个X零点出发，我们从这点出发。

我想找到他的极小值点怎么办呢？我先做个B近，就是说用二次万时给他做个B进，就是这个他让他的基数给他写出来。长试项限项2项，加上一个小项。我把前面的三个写在一起。打个包变成1个GX它是一个简单的函数。

是个二函数啊。我们对于FX的几小时，我们不知道是在哪。但是这个GX这个二次函数，我们可是知道的几小值在哪儿。这个是我们很熟悉的东西，是吧？二三数什？二三数是抛线。好线。

只要它的那个呃二次项的系数是大于零的啊，二次项的系数大于零的时候，它就会有。2次项系数小一等的时候呢，它就会有一个极大值点。就这种事情啊，就是说所以说我们前面说牛顿法有时候会找出极大一点。

就是说我们找他极值链啊，GX极值点我们知道的就是这个呃一次项的系数除以2次项的系数加个方号。那个位置。就是G德塔X的缺点。那F和G其实很像的，他们俩都是说毕竟嘛就是F等于G加上一个小量。

所以在F的附近呢，这个它俩很像，所以我们就拿G的极值点来估计F的极值点。G德塔X值点的这那F的值点念什么？就是X0加上这个德ta就X0减去这个数。所以说。我们就。再拿这个做一个FX的极制点的图形啊。

所以我们就把它，但很仍然是估计啊，他你想他它并不是精确的，就他俩不相等，还差东西呢。所以说我们把X一叫做X0减这个东西，是第一次迭代叫X。那么现在我们到了一个新的地方，我们通过X零出发。

我们到了一个新的地方。那么新的地方呢我们可以继续干这件事。不断的干这件事。就XN等于XN减1减去在XN减一处能求出来的东西。然后这个东西就是说你不断的去逼近那个局不去变这个东西。嗯。

当你出师点选的不是特别差的时候，他就会收敛到一个局部局点。这是牛顿法。牛顿法就是就这就是说。在局部上做一个二次B镜，然后你拿那个二次函数的极值眼来估计这个就这么简，这个什么办法？啊。

我解释一下前面同学说这个梯度和导数什么关系？我这个我这个前面说漏了啊。76F啊。等于你把他所有的那个片脑图给他写成1000。见没。我刚才只讲没听到说我没有讲记录。所以说。如果是一键函数呃。

一元函数的时候，你想就相当不就是一个数嘛。DFDX，所以说我们要求这个面。然后高原函数的时候，多元函数的时候呢，要求这里边东西全都是。最牛德法就是就是这牛德法就是。O。这两问题。好，有同学有问题说这个。

20X的值实点是怎么来的啊，这个我可以稍微解一下，这应该。就说。二函数啊。GX。等于AX平方。当DX。C啊，这东西呢你给它化简一下，就变成了HA就是这个这个。我写不对。然后加上这个。希望我不要。啊，对。

然后要忘的你对须也测先测一先。就这没事吧，这个没。你还感觉这问，然后那个这个地方空快。对对对，然后。所以几点什直点就是这个X，当你这个X项的。就是X的这个负的B除以R。那我们在这个例子里面。

这个A等于什么呢？A就是这个呃2分之FP撇B等于什么呢？就是X撇，然后B除负的B除以2A就是这。对。指出来了啊。好。呃，然后这个还有X一怎么推出XN啊，XE怎么推出XN。啊。

这个呃X一不能推出XX1不能推出X2X2推出X3X3，然后一直递推递推递推图变样。比如说用XN减1推出X。好，我们继续啊。然后这呃我们这个是个1元的牛盾法啊，这个函数只有一个变量，那是多个变量的时候呢。

什么东西都是一样的啊，不好写。但是我把它这个写个公式出来。一旦用多元函数的时候，因为我们现在还没有具体讲那个现代数呢。所以说这个地方我们就是写一下啊。我们要用这个梯度来取代导数，这个我们要看到的。

然后用用这个东西叫做hsion矩阵来取代二级老师。h矩证什么呢？就是所有二级老师放一起。因为它是个多元函数之后啊，它这个二级老数不是一个数了，就一大堆数，所以它等于什么呢？就是这。你对于这个XE。

修两辅导书写在左上角。然后呢，对X一求一下导数，对X2再求一下导数。Ex说。这个呢写在这个第二，然后一直写写到这个。这个你的XN球下导数，在这个XN球下导出。然后你把这些数都给它列在一块儿。

就是列成一个方阵。最后一个呢就是对于XN求大师导数。这玩意儿就叫做寒神之针啊，他就是说。他就是说这个呃一个二次函二阶导出的一个推广。那，梯度呢就是向量。就是一级老师推广成的向量。

二级老师推广成的这个矩阵。三阶就复杂了，变成那个三级大量。那个我们一般都不去考虑它。对，题度是这个，刚才我写了一遍啊。这样。嗯，有同学有问题说这个梯度和原异导数的问题，这还这个还是跟刚才一样的问题啊。

就是说你说一元函数的话，你这个那个导数就是一个数值啊，多元函数的话，因为你好几个变量呢，你这每个变量都得求一个导数啊，那你求出来之后，它就不是一个数了，它一堆数一堆数就行了。

就是大家可以破出一些神秘感啊，就是说。什么向量啊什么矩阵啊，什么这些东西啊，就是说你他有它有名词，名词的原因是因为这样比较好说。那其实它就是它的本质含义并不复杂。好，我们刚才牛论法牛顿法是20。

刚才看到了，就是用2二三处的算吧，就刚才问这个问题问的很好，就为什么二三数可以算这个极制点？就是因为我们知道这件事，所以说我们才能块也能做到。提出下降吧。有意见没有。嗯，但是提重调大法呢。

一般情况下我们就不考虑预案啊，肯定是个多样。呃，否则的话，这玩叫梯漏了。所以说我们首先就考虑这个多元纳数。它X的就候向量，X面的时候向量啊，在这点做相量不见。一定要是你对一个多元函数做现目金的时候。

就是说这个导数不能再写导数来，你就得写一个披注。然后呢，嗯但这是个数，它不是这量，怎么办呢？你要用这个。deltaX它也是会向量，它这个取数展制跟它做那积就变成数了啊，后边呢就都是这些。啊。

这是小量的没有，那前面就是然后我把前面这两项写在一起，变成一个新函数啊。那后现在我们就等于是在用这个线函数来比近。这个FX。啊，这个地方我是不是好写一个例子？比说。写个例子，快快写个例子啊。比如说FX。

XXY两排两个变量来是吧？平方加什Y平方就这个。然后我现在想在这个X0是么？H0等于。11我想在这个点处啊，这个B件啊。那么。首先我算他这个。提度啊。配小数我们刚才不算了啊，这东西等于2倍的X0啊。

两倍的Y0。就对你对X求求导呢得出两倍I对Y点求导呢得出两倍的Y点，我你把它放在一块给它给删量。那你这个X0居然等于1一的话，这个东西就等于什么？所以这个时候呢我就可以选这个F。

X0加上德taXdtaX其实是德taX1德taX2对不对？他刚头。嗯，就是吊台吊台位。然后呢，他等什么呢？就好点。他的什么呢？iad型对2加上。这玩意这玩意就是说这个。X， Y。这个。那个呢就是乘以。

7度。加上后边小量。对不行啊。写出来是啥呢？其实是线函数，就是说只是说我们抽象起来这样写比较好看而已。加上2外啊。加上小的。あ。😮，这个就是新笔性。啊。这个就是那个嗯。FX在那点出的现金啊。然后这是P。

就是把P写G比个什么？G就是前面一部分。这两个个。然后呢，那也就是说我们这F本来是挺复杂的海重，这个东西。二函函数。就比较复杂。我现在我们用一个一算函数来演出稳静了。但是毕竟之后有一个问题。

我们现在想找的可是极制点，对吧？机制点怎么办呢？怎么找？一次函数可是没有取的。第三方是直线的，那直线它就是直往上直往下，它没有没有基值。所以说这种方法不能告诉我们节点在哪儿。

它只能告诉我们节止点的方向走。所以你看到这个行要长这个样子之后，你可以至少得到一个信息。随着X变大，你这个F是变大的吧，就G是变大对吧？随着Y变大，G也是变大。所以你要想把哎这个F变小怎么办呢？

你要反方向的去走，就是说就是说你要。把X变小，把Y变小，那对，这怎么反方向呢？方向什么呢？就这个T度的方向，你要沿着梯度的反方向走就对了。但是走多远，你可是不知道的。嗯，他没告诉你，他只是说那个方向。

他就告诉你方向，所以你没了保险，你只能选一个比较小的。这长度。走一步试试。所以说怎么办呢？你得到一序列XN等于XN减1减去。后边是梯度啊，T度就是T度的反方向嘛，所以有符号走多远呢？你要自己定义你的数。

就是这个干板建议。就走那么一段儿，走那么一点儿，别走太多了，太多了，你就跑人来了。所以说。这就是方就是说你逼近了一下，知道了方向了，然后你就沿着方向走，然后稍微走一点。这种方法。为什么比那个五六达慢？

就这个原因。牛顿法它用二级比行，他不但知道了方向，而且他还知道走多远。你看他这个。同样注意对很多远来说啊，方向是一样的，都是这个F的梯度啊。好像是一模一样。但是呢他还给了你一个别的指示，就是说走的远。

他应该算。所以说他得到的信息更多。这也是为什么我在很多情况下，他更快。那这个这个当然会慢一些。什么问题啊？呃，同学讲到梯度描述的方向是一定的嘛。呃，就是说他在那个每点处，它它方向是一定。

就像是昨天那个董老师讲的非常好，比如说嗯。你像爬山一样，就是你比如说这二二二函这个二元函数吧，它其实就是个山，对吧？比如说我现在一个我现在一个函数，你画出来之后，它是一个那个它是个剖面。

这个我不太确定我用这个比方的话好看啊。老师是代。它是一个。烤我面。目前。这样子，然后你比如说在这点处。那你你想你沿着呃最速下降的方法，哪是哪方向能？就这块。对吧。😊，所以说在每一点处是一样。

你在这个点处的方向就不一样。就边这。O啊，就是同学问这个就是他描述向上的方向，要求小，所以取出数对。那这个负号不是说负数啊，这个符号是说这个里边这个里边的数呢也可能是负的。然后即使它是负的，你要取出。

就比如说这个例子吧，就就就就这个点吧。啊，这个这个啊这个例子吧这个啊这个例子的话，这个点的话，你看它急速上升的这个方向是这个方向这个方向其实你从XY角度来看，它这个大概也是负的对吧？但你急速下降呢。

你就要把它倒过来。那前面加括号，这个变正的。对这个数字的这个正负标题就是呃。你这个地方讲。然后另外一个问题就是说前面这个这个这个逆题证这个问题。对，就是说呃他是。这个东西呢是什么呢？披度是一个。

N乘一的向量。讲完这样啊，我这个写的不太好啊。我这写横过来了，因为横的好写所以横过来写。一般来讲，我们讲就梯度上，他不是分成列的向量竖着。然后这个什么？这是延长的矩阵。可应承担了。给人成立的。

所以正好相同嘛。当然了，这还权利权利之后还认成。好像没有别的问题了，我们继续啊。小结一下。就是跟刚才说差不多了，就是说有的码是PI法呢，本质上都是对UI是进行求信。啊，因为是职部逼近。

所以只能找到局部机制，他不可能找到全职机制吧。然后牛顿法的收敛步骤比较小，但是呢提出向量法的每一步计算比常简单。因为到前面看到了，就是说你每一步你那牛顿法你得把这二级小时求出来。你算这玩意。

这个东西其实是不好算的。就是说我们如果要是具体知到一个函数，就这种函数那就是比如说我们随便写出能写出来的函数，你就好算。但你真正处理真正那个做问题的时候。

这个东西不是说给你解析式算的这个东西其实是你是那个在这个函数附近取几个点，然后估计出来的。然后这种事就比较复杂了。就是说你取几个点算都是花时间的。所以这个时间复杂度就够了。然后这个呢他不需要算级导师。

最简单一些。哎，同学问我一个非常好的问题啊，就是你这焊业底量不肯逆怎么办，这是一个非常好的问题。我当然可能但是确实有可能不肯逆。所以说嗯。所以说这种问题呢。就包括那个前面都是有同样问题。

这个二级导是等于英怎么办？所以同样的问题，它万一等于0，你不能不能除了嘛，对吧？所以说呢有论法和那个极数相法法呃，奇数加法法，你那初始点不能取太长。你要是取那点取的不好，你这个二导数等零了。

或者是这个嗨开矩针不可逆了，那你就算不了。所以说初始点不能太差，这跟初始点选择是有关系的。然后有同学问这个梯度本身方向是不是向最小值方向啊，这个不对啊？就梯梯度是向上最大的方向。然后。

负的梯度实是向应最小值发生。那就是为什么这地方加了个负号不是正号。然后有同学问说怎么选这个初始点，这个问题就跟你具体处呃处理的问处理的这个事情有关系。呃，比如说啊我们。在工作的时候会遇到这样的问题。

比如说我现在呃有一个模型，这个模型呢有些参数。然后我就希望。这些参数啊选取使得它的某一个函数最小。就比如说亏钱亏最少之类的是吧，或者赚钱交最多了，就反正是一样的事情。然后我就有这个问题了。

我说我怎么取数值，所数值怎么选的？那个函。首先我这个参数是有范围，它不是说从复什到正取的，我这参数是从0到1的。所以我可以先从0到1做一个这个网格查找。对00。10。20。3啊，一直查到一算14。

我先算一下，我看看那个大概那个最小值在哪，然后我就以这里边最小值那点除来来照。就是但这个可能不同的情况，你有不同的做法，就是可能会有一些非常人工的手段找到一个初始点，然后再用这个算法做。

然后同学问这个全局机要是怎么办？哎，这就是核心问题。就是说嗯这样的算法是不能解决全局肌耳的问。但是昨天罗老师说到了，就是说机学习呢很多时候就是说很多算法，它的目的就是把这些。呃，不好找群体教师的问题了。

把它变成一个容易找群体教值的问题。对可能我们后面逐渐逐渐就会看到更多了嗯。然后同学问为什么梯度是下降？变化就是那个上升变化最快的方向啊变化最快的方向。这个。可以证明啊，但是你要问我这个他的。原理是什么？

能不能直观的说一下。我好像。说不太直观，你觉得嗯你可以把它理解成是那个这个这样想。你理解成这个。等高线就是说。

这还是一个很好问题啊，就说如果说我们是还是刚才。我刚才把它画成三维图像的时候，它是一个剖面。但如果我要是只在XY上面看看它等高线的话，它其实是一圈一圈。就每个圈上面它那个含数值都是一样的。

X平方加Y平方嘛吧？就是这个半径平方是吧？然后梯度是什么呢？梯度就是梯梯度永远都是跟这个等高线啊垂直的。你想你跟等高线垂直的方向，那一般不就是说你这个等高线变化最最平繁的方向。

如果你要是你看沿着等腰线的方向，它不就不变化了，它值就不变。你跟它垂直变化最快。是这。嗯，那个你牛顿算法和那个工业记录法，我们后面再讲吧，就是今天我们就不讲这些了哈。跟我题度跟T度是不一样。

这个还是挺大区别。咱们就是处理不同问题。这人名字有点像。如果理解正确的话，后面讲的时候可能会更加详细一些。唉，然后又有同学问出了一个经典问题啊，就是说唉这两种算法既然有有好处有缺点，那到底应该用哪个呀？

这是一个非常。呃，有一思问题，但这个问题无法回答，为什么呢？就是说你要具留你继续分析啊，就是说。这也是我们存在的原因。如果说你知道用哪个的话，就不需要我们了，这计算机就干这事了。

人工智能—机器学习中的数学（七月在线出品） - P17：偏差方差均衡和模型选择 - 七月在线-julyedu - BV1Vo4y1o7t1

Yeah。啊，能听清楚就可以啊。行，那我们那我们开始啊，我先简单的自我介绍一下，我叫孙思琪。大家可以叫我思琪，然后我是我是TTIC的博士生，然后马上就要毕业了，然后马上要去工作了。

然后今天跟大家交流的这个概念是as我为什么先讲这个东西啊？就是你的首先这个东西很重要。然后其次这个里面有一个有一个。这里面这里面有一个概念，这个概念的有的人搞得清楚，有的人有的人搞不清楚啊。

所以我在这里跟大家提一下这个主要的概念。再几次，然后在工作的大家在工作面试的时候，这个问题也很容易被问答。所以我想给给大家讲的清楚一点。那我们现在正式开。

那跟大家交流的题目就是bias veteran trade off。然后这个东西其实概念比较简单，我我尽量讲的稍微稍微慢一点。如果讲不了一个小时的话，因为我刚刚找完工作，然后讲不了一个小时的话。

我最后跟大家交流一下找工作的经验，面试的经验。因为我面试的职位基本都是机器学习嘛。然后那我们就开始。首先这是今天的主要内容主要内容包括以下几个方面。第一个就是基础知识。

因为今天今天后面讲的内容需要这些基础知识，其中之一就是线性回归正态分布，还有最大自然等等。那接下来既然我们今天讲的是bias trade off或者说这两个东西的一个平衡。

那我们就要讲一下什么是bias，什么是接下来讲一下bias trade off到底是什么。到底有什么应用，它可以应用于模型选择和做政或做正规化或者LP范数等等啊，这是我们今天的讲座今天的交流的主要内容。

그。好。反正就是一个基础知识啊，基础知识就首先讲一下先性回归。这个东西大家可能都知道。所以我就主要是给大家讲一下，我这我在这里面用的符号是什么。首先我们假设观测数据是XEY1一直到XNYN。

然后这个X呢，我们一般管它叫each。然后这个Y呢我们管它叫label。然后在这里面X是P位的，看看这里有个P啊。就是X11一直到2。就是X111直到XEP对吧？我们观测到的一个数据。

还有可能是你的用户的各种信息什么的。然后这个Y呢是一个实数，这就是一个数了。然后在线性回归里面回归是什么意思？回归意思就是这个Y是连续的，我们要预测一个连续的，我们要去预测一个连续的label。

当这个Y属于比如01的时候，或者说0123的时候，我们管这个东西叫classification或者叫做分类。然后然后线性回归是这个回归里面是回归里面一个很重要的一个东西啊。当然也是最简单的一个东西。

然后我们有了X有了Y，那我们要做的是什么？我们要做的是预测这个Y。这个这个实数Y那在classification里面，或者在分类里面，我们要预测的是这个01这个Y0零的概率是多少，一的概率是多少。

然后最简单的线性回归，最简的回归模型就是线性回归，最简单的classification就叫logg regression，或者叫逻辑回归。这个东西我这里我们不讲了，我希望大家回想一下这个模型也很重要。

你在面试的时候，很多人会会问到。好，那我们讲一下这模型是什么？模型很简单啊，就是你要做的就是预测一个F等于Y等于FX这个X就是你的feature。Y就是你的label，你要去预测它。然后呢。

参数我用s塔来表示，所以你可以写成这副样子。然后在线性回归里面，就是假设这个F啊就是个线性函数就等于多少，或者说X的。就是有N个数据这ig feature。然后这个s塔它标没有，一共有s塔个参数啊。

然后目标函数是什么？我们既然要预测它，我们就我们把预测的东西用Y hat来表示。那在回归里面，我们就直接直接去优化一下这个东西把Y hat减去Y这个东西的平方，就是这两个东西到底差多少？为什么要平方？

因为这个东西这样的话就变成非负的了。你看你这个Y hatt跟Y的距离是多少。那目标函数就是这个东西啊，这很简单，就是对于每一个数据而言，你的预测这个YI hat跟这个YI到底差多少，然后平方。

然后这个里面有时候管它叫MSE。me square estimator，然后或者当这个东西不是线性线性回归的时候，是个线性线性回归的时候，是个是个classification的时候。

我们诉我这里面管它叫L西塔啊，L西塔就是。或者说叫负logLC的L就是自然函数，你取个log，然后去负的，你取最角化这个东西。然后这个东西的解是什么？解就是你要去minimize。L这头。

给给你给 over这个se塔。然后这个东西你你这个东西的最后结果一般情况下结果就是这个啊，我们后面会讲不一般情况下这个东西是什么这个过程你这个你通过minise LC的得到这个东西，大家自己要会推啊。

这个有时候面试会面试是会面倒的。然后包括逻辑回逻辑回归的，你这个sta的。readingdescent的方程是什么？所以减去阿尔法乘这个这个东西这个东西是什么？你自自己会自己要推一下的啊。

这个从头待会全部都要回的。然后。这个东西是怎么来的？我可以大概给给大家推一下，这这个很简单。这个东西本身L等于Y减去X乘以C了的平方。就是这样的啊，这个东西是个Yter，是个是个向量。

所以这就是Y减去X西塔的。转志，不好意思。乘以Y减去X，然后把这个打开求导因它等于0就可以了。然后讲一下后面我们用到的东西，后面一个东西就是正态分布。当然我这里面只是拿正态分布举个例子。

对于任意分布都是一样的。一般分布的一个一般连续我们这里面用的是连续分布，连续分布的一个函数一般都是长成这个副样子的。然后当他的那个htogram或者叫。这个这个绿色的这个东西啊。

这般一般一般是真实数据的，真实分布，一般是长成这副样子的。你一般自己。自己feate之后得到的就是这个黑色的东西。然后正态分布我们一般用这个这个来表示N表示normal啊，这个表示期望，这个表示方差。

那期望是什么？希望就是定义就是这个东西，直观上这个东西怎么理解？就是对于你这个FX是这个概率密闭函数，这个东西不是它的概率啊。这个东不不是概率。但这个东西你可以可以理解为类似于一个这个东西到底有多重。

可以可以理解为类似于一个这个东西到底有多重要的一个东西。所以就是相当于是对这个X求了一个平均，到底平均的时候，你你这个放的权重是多少，就是这个FX啊，对于正态分布而言，你这个期望就是那。

那就是一般在你在做期望的时候，这个X，我们管这个X叫随机变量，这个东西要是随机的。但这里面这个随机是normal的方差也很简单，方差就是你这个X跟你的期望平均差多少。那么举举个例子啊。

你这里面这个黑色是这个东西，那假设我有另外一个normal distribution，是这样的，还有一个是这样的。那这个东西肯定是越细的，它方差越越小。因为它跟你这个中间这个幂偏离的越越小。

我把这个擦一下啊。重新画一下啊。再说你有一个更细的。还有一个更粗的。肯定是。还一个更粗的。肯定是这个更粗的方差更大啊。当你这个函数长成这副样子的时候，方差就非常非常大。

因为它跟它的中位数基本就没什么关系啊，跟这个跟这个期望就没什么关系啊。好，这个基础知识就。就等到大家有什么问题吗？来回复一下，现在有图像了吗？拿我这刚才这东西再重讲一遍吗？再重讲一遍吧。

那我们现在再从从头再快速的过一遍吧，我们再根据这个PPT再重新过一遍吧。因看大家能看到啊。啊，这这这个就不讲了，这个不重要，这就是今天我们讲座的主要内容啊这个。然后这个是我们刚才的第一页PPT啊。

假设我们观测到的数据是X和YX呢刚才叫。一般在你在做模型，在你在做模型，在做在做模型的时候，这个东西是最重要的啊然后这个Y是我我管叫label。然后这个Y呢也可以是实数，实数的话就管它叫回归。

可以是自然数就是0123或者什么一样，这个这个这个不重要，这只是一个值这只是个标志，这个管它叫classification或者叫分类。然后在先性回归里面，这个东西就是个，然后在先性回归里面。

这个东西就是个。然后在先进回归里面，这个东西就是个实数。然后你们某式 learningning做的是什么？做的就是Y等于F或X哎，你要做的就是去做各种F啊，在我们这里面用的是线性回归。

在 learning的时候，这个F就是一个 neuralnet就是个神经网络或者是个CN或者是个什么这个都不准。这里面我用F统一用F来表示，那它的参数呢是我们描动的是优化这个优化这个s。

优化这个优化这个sta，使得这个F最小或者最大。一般情况下是让它最小。然后目标函数对，然后对于线性回归而言，这个东西就很简单啊，关系是Y等于等于C的。所以你基本可以理解为是最简单的F了。

没有很少有比这个再简单的啊。然后目标函数是什么？目标函数就是你要去优化的东西。你竟然要让这个FX尽量等于Y，对吧？你要让这个Y。近似于等于这个FX或者用Y hatt一间，我没用你这模型做出来的东西。

我们一般用一间来表示。还是说两个东西尽量接近，两个东西明显。这东西有有时候正，有时候是负不对，对吧？有时候就你可以用绝对值嘛，也是可以的。绝对值的话可以保证这东西非负。

但绝对值不好的地方就是这个东西是不可以求导的。能你这个目标函数能不能可导，这个很重要啊，所以的就是两个东西减一减求平方，这个东西呢这个东西这个东西可导，然后求一下平均数，这个就是我们这个里面的目标函数。

有了这个目标函数，你要做的就是去优化这个西塔，使得这个目标函数最小。我们一般不怕用这个来示。最小化这个目标函数，这个东西是你要优化的东西。然后一般优化是怎么优化？一般就两一般一般现在一般情况下。

不管是D learninging还是什么，就一种grading第三层。就是就是梯度下降。对于线性回归而言，这我们根本用不到这个东西啊，你直接求到零它等于0，这是可解的。

然后解出来这个s塔 hat就是我们这个模型做出来的东西。一般模型做出来的东西，我们都用这个东西来表示。真实的s塔东西是我们不知道的，真实的，我们就用s塔来表示，我们做出来。

然后这个sta hat要等于这个东西，X X的转质乘以X求逆乘以X转质乘以Y。这是一般情况下啊，我们后面会讲不一般情况下，这个sta hatt等于什么。然后这个东西我希望大家要自己能推出来啊。

就是这个sta hatt到底是怎么来的，包括你在做逻辑回归的时候，你这个grading decentcent。ze塔等于西塔减去阿尔法一个个不长这个东西这个东西。L对C的求导L是什么？

增读逻辑回归里面这个L是什么啊，L是什么？增读逻辑回归里面这个L是什么？然后对C的求导这个东西是什么？我希望大家也能够写出来，这面试的时候很容易问到。然后对于现性回归而言，这个东西很简单啊。

线性回归就是。Y减去XA塔的平方二函数的平方。然后呢，这个东西等于什么？等于这这是个这是个向量啊。因为你看到Y是什么？Y是个实数，就这个大写的Y就是。Y一 y二。Oh why。

所以这个东西就是Y减去XZ的的转置。乘以YX塔，然后你把这个东西打开，然后求到等于0，你就可以得到这个。然后这个东西大家也可以自己推一推，有兴趣的。然后接下来就是讲一下分布啊，我们这里面的正态分布举例。

正一般分布呃，一般是一般实际的分布都是长成这个绿色这个样子。你画你你做做图的时候是画不出来这个黑色黑色线定，黑色是理论上是长成这副样子的。然后正态分布我们用N来表示N代表nmal代表正差。

然后me是期望sigma平方是方差，期望的定义是什么？期望的定义就是这个东西，相当于在这个这个点上，这个东西的权重是多少，权重就是你这个就是你这个分布啊FX。

然后可以这个东西可以理解为这个东西的平均数到底是多少？平均数。然后对于正态分布而言，I的期望就是这个命。你在这个图里面期望就是在中天这个中间这个点就是1啊十负钱。就付钱。然后对于方差而言也很简单。

方差就是你这个X跟你的期望到底离得多远，然后求平取平方。然后在这个地方放的权重是这个FXFX这个FXFX这个东西这个东西是概率密度函数，它不是概率，因为这个东西首先它是可以大于一的。

所以肯定不是一个概率。那么你可以近似理解为在这个点FX到底有多可能近似理解为在这个点FX到底有多可能，就只是你可以这样理解，但实际上不是的。然后对于正在分布而言，这个东西的方差就是就是这个平方。

那举个例子啊，方差代表你这个你这个点方差代表你这个你这个点到底离这个离这个中位数或者不是中位数啊，离这个离这个期望到底有多远，举举两个例子啊，一个是分布长成这个样子的，这个东西更细啊。

一个是分布长成这个样子的，这个东西更细啊，所以每一个点离你这个中间这个点都更近一些。所以这个东西的方差更小，让它平长成这个样子的时候，这个东西方差肯定更大，因为它更平。当你这个东西更夸张啊，长成这。

有多少，就完全是一个直线平的，这叫均匀分布，这个内方差更大。因为这个东西跟跟你这个中根本就离你这个期望都都很远啊。还是不行啊。嗯。刚才那个图像看得到吗？我这边丢包我这边丢包是0，我这边丢包是零啊。

我这边这个录屏软件显示我丢包是0啊。有刚才屏幕也是能看到的对吧？这微有点卡。啊，那么我我这边好像看起来没什么问题没什么问题没什么问题。你看我这软件这里这个丢包是零啊，啊这边速度也没有什么问题。哦。

声音有点卡，那我那我就说说话稍微慢一点。那我说话稍微慢一点。好，那那那那我那我继续啊。然后然后接下来我们就讲这个biance bias的定义是什么。然后接下来讲它。

然后然后接下来我们就讲这个bi bias的定义是什么。然后接下来讲它的这个tra off是什么？完像我刚才讲的，我这个参数里面都用s塔来表示。这个sta在我们现在认为啊。

这个sta是是真实存在的啊是存在的。只不过我们不知道我们要做的是通过这个模型做出这个stahead。记得我们刚才那个stahead等于。等于X转制。因X乘以Y。

这个东西sta hat我们要做的是你们不会晓这个sta hat离这个真实的seta到底有多远。因为这在这里面，我们假设我们知道这个东西，但其实我们不知道啊，我们要做的是这个sta hat去逼近这个东西。

那bis定义很简单啊，就是你这个sta hat的期望减去你这个真实的se塔是多少，也或者你可以把它。这。减去s塔，也就是说也就是平均意义上，你这个sta hat减去s塔等于多少？那wiy很简单。

virus就是你这个你这个sta hat的这个东西。这个东西就你估计出来这个就你估计出来这个参数它的方差是多少。好，这里面我们讲了一个比较重要的概念啊，就是你这个set hat，这里为什么可以取期望？

大家想一想啊大家想一想啊啊好那我们这里面有两个有有一有这那我们这里面有两个有有一有这个东西啊，就是你这个这里对这个s has，或者是对你这个估计的参数是可以取期望，可以取方差，这说明什么？

这说明你这个你估计出来这个参数啊，这个随机变量。要满足某个分布第A的。那这个分布是什么呀？这就随机来自于哪里？大家可以思考一下这个概念你清不清楚。如果你不清楚的话，你今天就讲一下，主要就是讲这个概念啊。

这好多人搞不清楚。嗯。大家现在可以思考一下，你这个随的还这个这个随机来自于哪里？为什么这里可以取机万可以取方产？好，那我们举个例子啊。假设我们刚才讲过这个。假讲过这个正态分布了。

假设这X是从是一个正态分布，期望是缪，这个缪我们可以认为它就是西塔啊，我们不知道的，然后放期望是缪这个缪，我们可以认为它就X是IID代表独立同分布啊。一般情况下，我们都假设数数据是独立同分布的。

Yeah。一般我们包括在做模型的时候，基本都是假设数据是独立同分布的。除了除了序列模型，这个后面再讲。然后假设啊我们有两个估计啊，我们现在要求估计这个缪，第一个估计就是me一等于X1。

我就用第一个数据来估计这个东西。那么你这个估计的bias和varience是多少？根据我们刚才的定义啊，大家可以思考一下，我我这里面问的问题全部是不需要用笔算的。大家可以用心算一下。

全部都是不需要用笔的。然后m是这个10个的平均数，那么这个bi谬2和谬二到底是多少？也就是你这谬二跟真1的谬到底差多少。然后还有就是这两个哪一个是无篇的，哪一个更好啊，哪一个是无篇的，哪一个更好啊。

给大家10秒20秒钟思考一下这几个问题，这个问题都很简单，全部是不需要用笔，让大家用心算一下就可以了。我看一下啊，我看一下啊。没有反应。啊，刚才那个是基础知识啊，如果你要知道你不听不听也没关系啊。

我主要是讲一下我用的符号是什么。然后大家有什么问题的话，就在。还有重音重音应该不是我这边的问题啊。因为你看我这边这个丢包是0啊。可能他这个软软件的问题啊。啊，我们。好，我们回回回到这个问题啊。

这两个东西的半次是多少？哎有啊，这个bi其实都是零啊，这两个东西全部都是空间的，怎么算啊？这得大家的bis的定义是什么？是E。谬对吧？减去缪，这是刚才的b的定义，对吧？你这个谬的期望减去缪。

那这个东西等于什么？EX1减去缪EX一是多少？X一就是从这里面取样出来的EX1就等于缪减去缪等于0。那同理啊，E缪2也等于0。Yeah。处理一面一点。也也就是说第三个问题，哪一个是无篇的。

这两个全部都是无篇的啊。这个这个可能直观上不是一样，直观上第二个可能更好。那第二个为什么更好？我们算一下virus是多少。我们算一下第一个东西的vience。关一谬E是什么？就是 virus。嗯。

对对一对吧？你X一是从这个里面散布出来的，是从这个里面取样出来的。那你这Yence就是一，那你算一下第二个wence。关根据这个公式啊。一家学。这个东你。对啊。I。Exll。这个就最后等于。

6除以10啊，那一除以10一除以10，因为这Y是1。那这说明什么？说明你这个第二的第二个这个估计比第一个方差更小。也就是刚才讲的这这个第二个东西可能是长成这个样子，第一个长成这个样子，所以这个东西更好。

因为它更接近于真实的。那你现在能看出来这个随机来自于哪里了吗？你在算一谬一的时候，这随机来自于哪里啊？来自于你这个数据啊，这个概念很重要，是这个里面数据是随机的，不是别的东西，是这个数据。

那我们看一下啊，你怎么验证这个结论。验证结论很简单啊，首先我这里是个这个这个是个py，我这里面扣用用的python啊，这个是个list。那么我把这个东西 run1000遍，跑1000遍啊。

每次的时候我从X1到X1里面，因为我要验证这个东西，我要假设这个谬是已知的知的。我这这里面假设缪等于0。假如你可以假设缪等于其他的数。然后从这里面取样，取出10个数据，计算一下m。

计算一下你这个m hat谬一间是多少然后你把它加到你这个list里面。然后你把另为p一下，你发现这个m长成这副样子的这个中间。中间这个东西就是它的这个应用，在这里面就是顶N，里面就是D啊。这个很重要。

也就是说你这你看到这里面随机是随机是从哪里的，是从这里来的啊，你把这个数据取样了1000遍，然后这个随机是在这里的，每次取出来的数据是不一样的。好，我证明。看一下啊，简单的验证一下这个东西。

这里面有代码，代码这个能大家能看到啊，能看到吧。我先把这PPT。这个代码做了一件什么事啊？就是把刚才我这个PPT上。转到了这里。听见到。然后这N等于10的意思就是我每次取了10个数据。

每次从这里的从这个正态分布里面随机取了10个数据。我这个东西跑了一万遍，我不止跑了100遍。大家如果想想可以，如果跑1000遍的话，或者说跑100遍。这个东西这是每次估计出来的me。

然后这是这个m的黑ogram。就是我最早的时候画那个把这个东西的。大家如果有印象的话，你会看到这个。这个绿色的啊就跟这个画的是一样的。然后你跑了100次，每次估计出来一个m。

然后这个m的它的一个分布是什么样子的？如果你50次的话，这个东西就很如果你只跑100次的话，这个东西就很不像一个生态分布啊。跑的次数越多，它越像一个正态分布。

我希望大家自己啊就是大家自己有什么疑惑的时候，或者说有什么困惑的时候，也可以自己去写个代码去跑一下，测试一下各个数据对你这个分布到底有什么影响。当这个越多的时候，这东西会越像一个正态分布。同理啊。

如果你这个东西，你看一下下面这里有一个。下面是你根据这个数据啊，下面这里有一个。下面是你根据这个数据估计出来的这个谬是0。0039，理论上这东西是0啊，这俩很接近，包括virus也是一样。

万rous理论上是一。但是理论上是一。理论上是00。1，然后实际上是0。1，很接近0。1。当你把这个数据变大的时候会怎么样？当你把每次取出来的数据，这是每次取出来的数据变大的时候。

你这个varience。这这这个东西就会变得更细一些。你看到这里的时候，这个细这个这个值大概在一左右啊，1-1。如果你把这个取的很大的话，这个值就在-0。3到0。3，就说明它的 virus变小了。

它更细了。虽然这个图像看起来是一样，但你看下面的坐标一个是-1，一个是-0。3了。啥也没有。哦。对这个我我也没有办法，因为我这边这个软件显示没没没没有丢包。嗯我不知道可能这能他软件有点问题啊。

然后这次要讲的一个差算差不多算是最重要的概念吧。就是你这个随机来自于来自于哪里啊，是来自于数据的。那大家可以想一下这个东西跟cross validation有什么关系呀？大家知道每次选超餐的时候。

好多时候会提到用这个东西，这个东西跟这个有没有关系，有关系的啊，我们后面后面会讲。那最简单的一个b应用就是你可以用这个东西去理解什么叫过拟合，或者什么叫work。Yeah。一样的，我们假设数据为XY。

然后我们已经有一个overfi模型了，这个模型F，我们假设它是overfi。那么有两个问题，这个模型的bi是高还是低？万ence是高还是低？嗯，看下这个软件啊。艾码太小，看不清楚。啊。

这个代码很代这个代码无所谓啊，因为这个代码就是。我这个就是这个这个啊就是这个。我刚才改了东西，一个是你这个1000。一个是改了一下这个1000，就是我每次我每次把这个东西重复更多遍。

然后你这个数据就会更接近于那个正态分布。然后还有就是你每次取10个，对吧？我不一定可以取10个，我可以取100个。当取也就是你的数据更多的时候，你这个最后估计出来这个。这个这个东西啊，它的玩就会更小。

这个风就会更细。就是就我刚才的代码就是这个啊。代位很简单，把这个实验重复1000遍，取样，然后求一下平均，然后把这个没有记进来。再家看到这个随机是来源于数据的。我把这个东西重复了100遍，这个很重要。

我再重复一遍。然后我们再看这个啊，这个b是高还是低？当一个模型overfi的时候，很奇怪，它bs是低的是低档，bi是低的是低的。啊是低的是低的。啊V是高还是低？vari是高的。

记住刚才我们刚才我们这里在做这个实验的时候，这个m你也可以算出来m期望m。然后当这个数据多的时候，方差就小了。然后对于模型而言，多的少候方差就行了。然后对于模型而言。Yeah。一个overface模型。

一般情况下，一般情况下bias是高的，为什么？因为你一个模型overfi代表什么？代表你这个模型做的太复杂了，相于你一个模型overfi代表什么？代表你这个模型做的太复杂了。相对于你比如你有10个数据。

你搞1个100万个参数的一个模型，那你的bias肯定是非常非常低的。😊，但但是但是你有100万个参数的时候，你这个w会非常非常的高。大家看一下这个图啊，当你这个当你这个模型做的很复杂的时。

你终于可以可以基本可以画成任意随便一个东西。然后ws高代表什么？然，假设你有假设因为假设这是我们现在已经观测到的数据，假如这个。外是从一个概率里面。散三布从这个里面散布出来的取样出来的。

然后假设假设我们有这个东西，实际上没有。假设我们有这个东西，我们再重新取样出来一种，重新取样出来一组数据。X一撇Y一撇，我们再重新取样出来一种，重新取样出来一组数据X一撇Y一撇。然后呢。

这时候你这个模型在这上面配合都会非常的差。代表什么？代表在这上面fe好，这上面fe的差代表什么？代表它vience很高啊。😊，就是你这模型表现不稳定，你就可以认为叫比较高。啊。

所以这也是这个也是为什么这个cro validation是有用的啊。因为我们没有这个PXY，所以我们人为的把数据平均分成几份，然后用其他的份儿。

假设这两份全部都是从这个分全部都是从这个P里面取样出来的那我就期望你这个模型在这个里面，在这两个数据数据一数据二里面表现比较稳定稳定代表什么？

所以cro validation主要是为了降低你这个降低你这个模型的vience。

再看一下。😔。

好，没什么，那我继续了。okK这是我刚才讲的carware意义是什么？那overfi有什么好处吗？大家都说overfi。一般都代表不好那over其实也是也是有好处的。over的好处是什么？

是可以帮助你对吧。第一个是可以帮助你提bug。如果你这个模型overfi都做不到啊，说明你这个模型是有些问题的。第一就是你这个代码里面有bug，第二可能就是你的模型有问有些问题的。

第一就是你这个代码里面有bug，第二个可能就是你的模型有问有些问题的。第一就是你这个代码里面有bug，第二个可能就是你的模型有问。你的么你的模型有题。如代码有bug不说了，你可以。如代码有bug不说了。

你可以根据这个去去理bug。当你的模型有问题的时候，代表什么？代表你的模型的bias太高了。你要把这个模型变得更复杂。因为你如果如果你在一个数据上连overfi都做不到的话，那你这个模型就有问题啊。

就流睡的也是有用处的，可以帮助你两个，一个是第bug，一个是。看你这模型是不是够复杂，是不是是不是足够。Yeah。ok。是。啊，有问题就在就在这里提啊。当然你要说卡什么的，这我没办法。

我说跟如果我讲的哪里有有问题，然后大家可以在这里问啊。然后误差是可以分解为。bias和vience误差是什么？误差就是。就是假设这这这是这这这是我们前面需要的一些基础基础啊。假设真实的参数是seta。

然后我们估计出来的是seta hat，那这个误差就是这个东西的阿尔法。然后这个东西基本就是你别在乎的东西，对吧？你做估计出来这个参数跟真实的参数到底差多少，估计出来这个参数跟真实的参数到底差多少。

Yeah。然后这个东西是可以分解为bias和vi的那这里面是一些假设假设模型为F西塔西塔代表真实的参数，估计的参数为s塔 has。那我们这里用用s塔一弯表示你这个这个东西的期望。我都直接。

表示这个sit had的期望，我们为什么可以去期望啊？因为你这个sit ahead是通过你这个数据数据X。额脉估计出来的。嗯。所以然后这个X和Y是同一个我再强调一。就从一个。P里面取样出来的。

所以这个sta是随机的，所以我们这里可以去期望啊，所以这个东西还是随机变量吗？不是啊，这是这是个这是个常数啊。这是个常数。因为你对这个随机变量取了期望，所以这是个常数。然后这个西塔是常数吗？这是常数。

然后这个西塔是常数吗？这是常数啊，这也是常数。虽然我们不知道，但它是常说，那么bias就是s塔1万减去这个西塔，记得吗？就是我们刚才bias定义E。就是这个东西啊。那我们看一下Eror是这个东西。

就是你估计出来的这个参数跟真实的参数到底差多少差多少。我们用之前类似于那个MSE的这个东西来表示啊这两个东西取平方，然后求期望，为什么可以求期万？因为这个东西是随机的。这个sta派是随机的。

所ta是常数，也以可以求期望。然后这个东西你怎么求呢？然后这个东西你怎么求呢也很简单，中间减一项加一项，这个东西不变啊，减这项就是你这个sta has的期望，加这项也是sta has的期望。好。

大家记得啊，A加B的平方可以写成什么？可以写成A平方加2AB加B平方。啊，这里就做了这件事啊，这个是A的平方，在这里这里是2A。B这里是B的平方，你就把这个东西。看成是个这个看成是A。这个正常是B。

这个这个肯称是A。这个正常是B。然后把这个东西带进来就行了。然后你不白这个东西是什么？这东西等于0啊，因为Es塔 hat是什么？就是s塔以外。就中间这一项没有。然后剩下这两项是什么？

剩下这两项这个东西是不是就是vience，你这个sta hat，你这个se塔是个随机变量，这个随机变量离它的期望到底差了多远，这就是它的vience。所以这个东西就得所以eror就可以分解成两部分。

一部分是你这个sta一s hat的7呃的variance。沙，还有就是s hat the files。可以理解为是偏差，这个sta hat离sta到底差多远，可以理解为偏差。

然后这个就叫做bs warrant trade off，就是你这个误差 error可以分解成两个部两个部分，这两部分全部是非负的。你看到varience是非负的bis的平方也是非平方也是非负的。

然后呢这两个东西的来源是什么？varience是怎么来的？varience是因为我们的数据是有限的，我们并不知道这个PSY这vience就从这里来的。如果你有所有的数据，假设啊一共就10个数据啊。

然后你所有的数据都有了。然后你这个varience是多少，就是0啊。然你有所有的数据的时候，vience就是0，所有的数据的时候，vience就是0。然后8S是什么？IS就是你在估你在假设这个F的时候。

这个东西不一定是真实的。你跟真实的到底差多少，你这个估计到底差多少，这个是8S。看一下。怎么判定是overfi导致的？Yeah。vience高的理论依据是什么？你你这个刚我问的是刚才的哪一部分啊？是。

注材啊是这一页的吗？这一页你问这个vience为什么是高吗？😡，这个Q two就是这里吗？哦。这个这个目前你你如果如果根据后面这个东西来看的话，后面这个东西是有一些理论依据的。

但这个东西直直观上很容易理解啊，就是假就是假设你有XYXE撇YE撇。假假设这个可能有100个数，这里有100个数据。这两个东西全部是从同一个分布里面取取出来的。But。XY然后是两是一样的。

但假设你现在只能看到这个XY，你假如你现在只能看到这个XY，你就做了一个模型，你拼命的去fiate这个东西。然后这个东西就很很像很像这个东西我后面后面会有一个图来表示这个啊。

后面后面代码也有一部分是表示这个的。然后你拼命的feate这个东西的时候，他就对这个东西fiate就不是那么好了。Yeah。然后这个代表什么？代表在这个上面的表现很好，这上面表现不行。

就是你这个Y比较高嘛，你这个模型表现不稳定。Y高是什么？Y高就是你这个东西不稳定。大家记得刚才那个正态分布嘛，静态分布这个时候就是比较稳定的，这个时候就不稳定的，不稳定，说w高说明什么，说明你这个东西。

这个东西比较比较宽啊，这表现说明什么？说明你这个东西。这个东西比较比较宽啊，这表现什么什么东西都有可能。那你这个东西就是一间的时候，这是最好的。你这模型表现很稳定，全部在这里。数据很多的话。

为什么没有啊？数据多的话，wis是会变小的啊。数据多的话，一如果如果比如你有100个数据，你后来多到了1000个。你这个模型如果你模型不变的话，你模型的关注是会变小的啊。数据多的话。

不是说virusrous啊，我刚才说过数据多，wirous会会变大吗？啊，你可能是这个假设这个X撇Y撇你是观测不到的。你你在做模型的时候，你只用这个X和Y，你没有用到这个X撇和Y撇。

也就是说你可以我我我把这个。嗯在在这在这里画啊，假设你假设你在做C validation的时候。这个clo version解释可能更清楚。这里是XY这里是X撇白撇，你在做模型，这里是X撇白撇。

你在做模型的时候，只用XY去做这个模型，这个东西你是看不到的啊。然后你后面是用什么？是用这个东西去测试你这个模型。test啊并没有去测试你这个模型。test啊并没有用这个东西。

也就是说你这个seta你做出来这个模型这个参数只跟XY有关，跟X一撇Y撇是没有关系的。然后你用这个X撇Y撇是没有关系的。然后你用这个X撇Y撇去测试一下你这个东西做出来这个东西是不是稳定。

然后这个就是间接的，类似于刚才我说的这个这个这个就是classsization。它这个东西重复好多遍，就是classsization。因为因为你不知道这个PXY是什么。

所以你就人为的把这个数据分成了两部分。然后测试一下你这个东西，你这个模型在不同的数据上面是不是是不是稳定的？啊，怎么判定是overfi导致的，估计不准。我我的意思是就是说，如果你你做一个模型。

做这个数据的时候，如果你这个如果你这个数据都做不到overfi，说明这个模型肯定是不行的，连overfi都做不到的模型是没有任何意义的。也如你就。啊，那那我就讲个比较比较简单的例子啊。

看下在在哪里画画啊。就就就就咱就得就在这一块。还有问题是。假如现在。假设现在啊你有有100个数据，这有50个猫，50个狗。你做了一个模型去就这动作分类。你这个模型拼死了去fiit。

你做出来一个50%准确。那你这模型就没有意义啊，因为你的模型连overfi都做不到。首先这个模型大概要能做到，最起码要能做去，对吧？然后你这个模型才有意义去做下去啊，也就说over fee的时权对吧？

然后你这个模型才有意义去做下去啊，也就是说overfe是你做这个模型的一个首要的条件。你这个模型要能overfi，你这个模型才有希望。如果你的模型你做了半天，最后只能做出在在测试机上。

training上面呃训练级上你只能做到60%准确率，这模型是几乎是没有什么希望的啊。所以我认为这就是我刚才讲的overfi有什么好处吗？是有两个好处的。如果你这个模型做不到在纯你在在测试机。

在训练在训练集上面overfi的话，那只有两种可能，一种是你的干码有bug，一种就是你这个模型bs太高了，你要把这模型变得更复杂。

因为overfi是你是overfi呃overfi是这个模型有用的一个首要条件。tner overfi。所以一般时候好多人debug是用的是这个模型有用的一个首要条件。tfi。

所以一般时候好多人debug是用是比如你有100万个数据啊，你有100万个数据，你就取出100个数据来数据来，你这100万个里面随机取出100个，然后做为一个模型测试一下。

它在这100个上面能不能做到百分之百。能的话，你再把这个数据变大，比如变成。100100万100。能的话，你再取出90万数据在这模型在在在上面做训练。因为它是有希望的啊。如你取出100个数据。

你给我做出来一个60%准确率，你的代码肯定有问题啊，或者你的模型有问题啊，100个数据都非的不好，没有希望的。所以这个这个这个也是一个小技巧吧，就是overfe的是你调这个模型的一个首要条件啊。

过拟合是指参数过多吗？不是啊，过拟合在我你搞过拟合在我你可你可以认为参数过多是过拟合的一个一个可可能可能是由参数过多导致的。然后当然有时候也不是参数，有时候也不是参数过多了。

你想一个你在你在做那个visition或者像那个。这叫什么测数的时候，你一个深度也是会也是会影响你这个也是会影响你这个是不是workfi的。但这个并不是参数过多导致的是模型复杂。你可以认为模型复杂。

会导致你这个东西的过拟合。那么但这我这里面就主要讲的是什么？模型复杂，会导致你这个IS变得很低很低变得很低。因为你模型复杂嘛，你的可能性就更多，你可能性更多。你的模型就当然你就有可能更接近于真实模型。

假设啊这是这这个是这个是你一个模型的一个s，然后这个是另外一个大的，也就过拟合，就是你取的这个东西过大了。虽然虽然它这个真实的在里面，但有可能你找不到它。所以更大的时候，bis一定是更低的啊。

模型更复杂。bis一定是更低的。但但同样的，当你bis更低的时候，并不代表模型更好。为什么？因为你在意的是这个东西的eror。当你模型更复杂的时候，这个varience会变高。Yes。

所以所以这里我们讲的是一个trarede off，只要这两个东西基本处于同一量级财务情惯。后面这个东西可能跟你跟你这个问题也有点。对过你合就是拟格太好了。对的啊，拟合太好，说明什么，拟格太好。

说明就是你的bias很低啊，bias很低很低啊。在里面举个例子啊，这个这个大家可定也经常能看到这里面lamda是什么，你先先不用管，后面会讲后面会有测试后面会有一个例子，lam的越大。

代表你这个模型的代表你的模型越大，代表你这个模型的代表你的模型越简单。你可以可以近次这样理解啊，也就是说越往这边，你的模型。越简单简单，我用easy来表示啊，这模型越easy。

然后这个黑色的线就是bias，当你这个模型越来越简单的时候，你的bias就越来越高越来越高。然后这个也高越来越高。然后这个线绿色的。是vience，当你模型越简单的时候。你这个关相对的也就越低。

然后你在乎的是什么？你在乎的是这个bi的平方，加上这个varience就越低。然后你在乎的是什么？你在乎的是这个bi的平方，加上这个varience。所以你在乎的是这两个东西加起来到底是高是低啊？

你在乎的不是说bi越低越好，越低越好，是两个东西加起来到底是不是低啊。所以假设你这个这个er是可以分解成这副样子的那就是这个点是最好的。因为这两个东西加起来的时候啊，还有就是刚才忘了讲了，有时候啊。

还有就是刚才忘了讲了，有时候你看到书上讲的时候，但是用这用这这个东西来写的，就是你真实的Y减去你估计的Y平方。当然这个东西可能这个东西就是 error了。因为你真正在乎 error不就是这个东西。

然后推导方式跟这个是一样的啊，你在中间加上一个加减去一个一。F X。然后加上一个一。Is。就是永远是加减你后面这个东西的期望，然后推推导方式就一样了，你可以推导出来这个东西加这个有兴趣的可以去看一下。

这样这样这样可以理解吗？就是你你要做的是最小化这个东西的平方加上minanceoverfe就是bias过低。哎，vience很高。不一定低。de加高温染高温ance会导致这个er也有可能会很大。

但是取决于你这个完到底有多大。所以所以这个这这就是这里面讲的推套这两个是有一个推套。平衡这都可以理解为平衡。模型复杂，为什么方差更大？好，这个我们后面会有例子啊，后面会有例子。啊。

这这里你可以这这里这里是个例子啊。这这里这里是个例子啊。这里是这里是个例子，我从那个。这从温达的PPT里面直接取的一个例子啊，这里面feature就是2个X1X2。因为我们要做可视化嘛。

所以只有两个feature，再多的没没有办法可视化了。然后圆圈代表是一个label啊，你可以理把它理解为是正一叉叉，你可以理解为是-一。然后你现在要做一个分类，然后这是你嘴是正一叉叉。

你可以理解为是-一，然后你现在要做一个分类，然后这是你嘴是正一叉叉，你可以理解为是-一，然后你现在要做一个分类。然后这是你做的三个模型，这是个什么模型，这就是个线性模型，这个这个模型是最简单的。

然后其次这是什么？这可能是个neuralnet，可能可能只有10个什么样的，你做出来是这样子的。当你把这个neural network变得更复杂的时候，它能他能考虑各种各种可能性。

所以他就有可能把这个数把这个训练级里面全部都做对了，但这并不一定是好事啊。假设啊你从。没有。假设你从这没有。假设你从这里面取了一个新的点啊，比如这里这里你画个这里假设啊这个东西我们没有观测到啊。

假设这里有个数据点的话，这个模型就会把它画成什么，把它化成是叉啊。那其实这个东西你这个东西应该是什么？应该你你直直观上看应该是个圆圈啊。所以这个东西说明什么？这个东西是bios错。

这个东西是bias高viB。这个东西可能fi和vi。都比较合适，这个是bias。He that variance高。可以理解吗？理解吗？啊，所以这个也基本可以回答你这个问题啊，模型复杂，为什么方差更大？

啊，对，对测试数据。对对对，这这这个这个肯定是的啊。因为你的模型更复杂，它能fe各种各种各种可能性。它有可能把你这个noise，比如这两这两个东西是你的noise，对吧？这两个东西有可能是例外。

或者说这这俩人就比较假如这是人的话，这俩人就比较特殊。那你管这俩人干什么，你没必要啊，那你模型更复杂的话，就是会把这两个人也管进去啊。但其实这俩人你不你不你不用管他。所以模型更复杂。

它的vience一定是更高的。相对于简单的模型，相对于这个简单的模型，它vience一定是更高的IS一定是更低的。好，后面后面也是一个实例啊，也可以大家可以思考一下这个问题啊，这个东西也是比较简单的。

假设KN算法大家都知道啊，天N算法是什么？就是你要你你去评估这法是什么？就是你要你你去评估这个点到它到底是什么label的时候，你把所有的点，假设所有的数据出来这。啊，K离他最近的点。

比如比如这里面KH4的话。把这K离它最近的4个点，看一下这四个点的label是什么。然后这个点的label就是什么？它最近的4个点的label是什么，它就是什么？那我问你K等于3和K等于10。

哪个模型的bias更小，哪个模型的varience更小。还有一个就是假设你有100个数据的时候，K等于100的时候，你就模型的varience是多少。来是10秒钟思考时间啊。

哎，这里有这个东西啊，你要直直接在google在百度里面搜bias trade off，他有可能会把这个文章给你打出来。这文章讲的很好，有兴趣可以看一下，这里面就是一个KN的例子啊，跟刚才那个图差不多。

这是一个二维的featureX和Y。然后中间红色代表是一个label，蓝色代表是一个label。然后当你把这个K调一调的时候。这这这个这个黑这这个这个黑色的线说是它fe的出来最好的线啊。

这个东西我们暂时先不用管它，这这个黑色的虚线是它做出来最好的线，这个看得清吗？

哦，没没没问题的我头弄大一点啊。

这个这个这个大家有兴趣可以去玩一下啊。这说是K等于一，当你把它K变大的时候，你会看到什么？那到分界线越来越不明显。当你把K调到很大很大的时候。说明什么说明你这个模型基本没有什么virusrous啊。

中间所有的全部都是白色的。白色代表什么？白色代表代表你这个东西投票的时候，投票可能是一半是红的，一半是蓝的。所以啊你这个K越高的时候，你这个模型的varience越低啊，varience越低。

说明你这个bias就越越高啊。所以回回答这个问题啊，K等于3和K等于10，哪个模型bias更小，最 bias小的是K等于3啊。那同样varience小的是哪个varience小的就是K等于10。

那假设有100个数据，K等于10，你winence是多少？ence就是零，没有任何vience。因为你一共只有100个数据，你从你用这100个数据投票。

那肯定就是哪个更多就是哪个所有的所有的点子 label都是模型没有任何vience。

Yeah。

看到这里也是一样的。Yeah。好，这这这个就跳过了啊。我们时时间可能时间可能有点紧张，我我快速把后面讲完。好，然后这这是我们刚才最早的时候给给大家看的看的PPT啊，这个讲的是先性回归啊。

那一般情况下s塔等于这个东西，那什么时候不一般的？那比较简单啊，首先就是这个东西不可逆的时候。当P大于NP是你这个什么P是你有多少个feature，N是你有多少个数据？

当你的feature大于数据的时候，这个东西一定是不可逆的。所以这东西是不能解的。所以你就因为你这个东西不可逆啊，所以这里求你是不行的那你说我不求你我用数值解数值解可不可以啊，数值解很容易or。

数值解可不可以？数值解很容易or。好，那我们而讲，这个很容易over废的。好，那我们讲一下怎么避免这种情况。然后这里面一般的模型是什么？一般模型就是你去minimise这里有个seta。

minimise对于对于线性回格而言，你是最小化你这ME对于其他的模型而言，你就是最小化负的log来y。这里面可以去任何东西，可以是L没没必要非这里面可以去任何东西，可以是L没没必要废饰这个东西。

这里只是为了简单，然后你你有你有没有什么regization，你有没有什么限制呢？限制，其实这里没有限制啊，你C的可以去Z取任意的实数。说么你的模型你有无限可能性吗？

但其实啊我们我们如果我们要如果我们要是模型workfu，我们要降议它vi怎么做呢？一个就是让模型更简单。由于你你在做dep模型 overviewfu，我们要降议它vi怎么做呢？一个就是让模型更简单。

由于你你在做d的时候是比较有效的。你可以把它的heden neural。求求的小一点，层数小一点，你就也会降低vience。然后另外一种就是你限定参数，你就也会建立vience。

然后另外一种就是你限制参数，你这C你这个参数不是属于所有的实数，假设。你这个参数可以限制两，假设，但是你能做到这一点，就是你限制参数的个数。再其次就是你限制自个数，再其次就是你限制参数的范围。

不让这个s塔属于全体的实数啊。这个是这个东西这个东西有什么缺点？这个东西缺点，就是这个这个这这个得把参数的个数啊，用假设你有10个se塔的话，这就是10个参数。这个缺点就是这东西没有办法优化啊。

因为这东西你没有办法优化，所以没没有人去用这个东西去做优化的。就是用限限制参数个数，因为一般都是限制参数范围，相比原来的模型，假设s塔是属于所有的实数。我这里面假设s塔只能假设这是原点。

所在只能在这个原点在这个圈里面选，别的地方不能选。所以所以这个是什么？这个如你加了这个条件，你的 biass。会变高，the会变低，因为你的X只能属于这一个圈，因为这个范围变小了，范围变小，可能性变小。

你的 virus的不稳定性就会变低。所以我们用这个东西来表示，这个东西是二函数，就是对于某每一个s，它的平方要小于等于某个值，在这里面是属于某个圈，这就是个圈，但不一定是个圈啊。

你说可以把它画可不可以画成画成其他的圈，画成P，这也是可以的。然后这里面有个图啊，这里面有两个东西比较重要，一个是P等于一的时候，就是这个正方形这个菱形。然后一个就是P等于二的时候，就是这个圆圈。

这两个东西比较重要，其他其他很不常用啊，其他的情况这两个东西比较重要，其他其他很不常用啊，其他的情况很不常用。然后这两个情况比较常用，然后然后大家有时候会看到会这个东西这个这个模型啊完全等价于这个模。

这两个东西是完全等价的。也就是说你限制这个限制这个sta属于某个圆圈，就可以把它加到你这个模型的后面去。这两个模型的后面去。这两个问题是完全等价的。完全等样，你就看到大家有时候有时候会看到，比如L菲塔。

加上一个模型的二反数，为什么要在这里加一个模型的二反数？是因为这个啊你要限制你这个s塔的范围，只能在这个原点附近。所以这就是为什么要加二函数或者是P函数。所以这就是为什么要加二函数或者是P函数。

这里就是P函数。但是P不重要，一般情况下都是用二或者一。然后这个就是负的最大自然，这个东西就是为了限制参数，只能属于在原点附近的某个圈。而这个圈不一定是圈，可能是方块，其他的圈或者什么什么东西啊。

然后所以这部分就是你的bias，这部分就是限制你的vi。然后你可以把这个理解为是一种平衡。你要让这两个东西差不多。你要平衡这个东西啊。然后你拉你要平衡这个东西啊。然后你lammbda越大的时候。

你的模型选择范围是越大还是越小，就可以思考一下。然后就是如何选择lammbda，对吧？你这lambda既然是个实数，然后这个东西我们也不能通过模型去优化它。那这个这个东西所以我们管这个比较超惨。我超餐。

因为这个东西是不不能通过数据去优化的。然后拉的越大代表什么？一般代表你这个东西越小。有兴趣的可以去推一下这两东西为什么是等价的。很简单啊，当你拉mb的越大的时候。你这个圈就越小。所以兰姆da越大的时候。

参数范围是越越小，越大的时候，参数范围是越越小，所以它的variance越低。然后如果选择lammbda，就是我们接下来讲的所谓的模型选择。好，咱讲一下这个刚才刚才说过的。

我们最常用的就是一函数和二函数。二函数就是有个名字啊，一般你在做回归的时候，就管它叫re，就是你前面的模型很复杂。然后你后面就直接对参数加一个二函数的限制，然后去优化就可以了。为什么要加二番数？很简单。

有它容易优化，没没没有别原因，因为它容易优化。一番数有什么好处？一函数就是它要稀疏的这这个图是什么意思啊？首先这个东西就是一函数的这个范围，对吧？你这个一你这个你这个参数只能在这个圈里面选。

然后二番数你这个参数只能在这个圆圈里面选，这只能在这方块里面选。然后假如说这个里面最好的点是这个，然后这个一一圈代表你这个你这个一圈代表你这个你这个你这个Lzeta啊，或者这里面是L贝塔取值都一样啊。

这一圈取值都一样或我们往下等高线或者等什么线。你看到取到焦点的时候，这个值最小的时候，这东西很容易是等于零的。这个是这个是作作为可视化的，这地方很不容易等于0。所以这也是为什么LY是可以稀数的。

但如果你去研究一下这个L one是怎么解的，这个so是怎么解的，你发现这稀数是很自然的，因为它里面有一步就是说当你这个s塔小于某我da的时候，你把s塔设成0。你这优化算法里面就有一步啊。

要求这东西是是习数的。所以所以L one有什么用处？L one一般是用来选feature的，假如你有100万个feature，你100万个feature，你要选出100个来。

你可以用拉索跑一家100万可能太多了，100个feature太多了，拉索不一定跑得动，这只只用来选选选参数的选对选选feature的。然后L two用于优化。现在地步分全部是L。

K means我刚才刚才没有讲K means啊，讲的是那个KNN啊，KN不担心过你河担心啊，你KNN这个K啊。K等于一的时候，一几乎一定是过拟合的。K等于一的时候，几乎一定是波拟合的。

所以你就要调这个K啊，这就刚才我收K啊，这就刚才我收这个图啊。你看到K等于一的时候，这里有很多点啊，你看这些蓝色的点，这明显不应该是蓝色的。因为你只选了它最近的这个东西。所以这个离他最远这个东西。

所以这个离他最近的正好是个蓝的，所以这一片全部都变成蓝的了，但那不合理啊。KNN是会担心过拟合的，你这个K不能太小，K越小过拟合的可能性越高啊。所以你看到这个K变大的时候，中间这一部分会变得越来越红。

因为你投票嘛，投票的人你这个KK也可以这样理解啊。不太懂K个数这个KK也可以这样理解啊。不太懂给K个数啊，你可以这样理解，当你投票的人越少的时候，说明什么，说明这东西越不稳定，对吗？

K等于一只有几个人投票，只有一个人投票，你有一个人投票，你有10个人投票，哪个更稳定啊？那肯定K等于10的时候更稳定，对吧？更稳定，说明什么？说明它的Y比较低啊。😡。

那同理假设你这数据里面一共就有100个。当你有100个人投票的时候，把这K取到最大，这张这里面不止100个。当你有100个人，一共就有100个数据，你让这100个人投票的时候。

那就是这个数据里面哪个东西越多，哪个东西哪个东西多，你就投票全部投哪个，也就是你这整个数据里面全部都投这一个东西。那这时候你的模型的valence就是零啊。假设你有100个数据的时候。

当然这里面不止100个数据。这样这样可以理解吗？就是K代表你这个投票的人数。投票的人越多，模型越稳定。越稳定，说明vience越低。可以吧。OK这个是我们刚才讲讲的这个政策化啊。

就是就是你看到好多好多在做的时候，前面除了L，后面它加了这个东西，为什么是为了限住这个参数的范围啊？也就是说为什么是为了限住这个参数的范围啊，也就是说为什么是为什么这个东西代表限参数范围。

因为这两个模型是等价的。每一个m都对应一个da，每一个缪都对应个mbda，这两模型是完全等价的，也就是说这里面要求你这个参数只能在这个圈或者在这个方块里面选，不能超过这个范围？这两这大问题是等价的。

然后这就是想给你们解释一下，为什么为什么你在做优化的时候，可以在这后面通过加一个这个二范数，或者说P范数来降低vience。就是因为这个因为你这个模型参数可选的范围小了。他么讲还我有有有点超时了。

我我我很快我很快讲完。后面就是你在做你你在做这个，后面就这是刚才我说给你们这个图啊，这个这个就是代表lammbda，这里log lambda。当你这个lammbda越大的时候。

连模型就越什么模型就取可选择的可能性就越小。所以你这可选择的可能性就越小。所以你这你这里面每从这里画一个代表一个lammbda。当最开始lammbda很小的时候，所有的参数。

这这里面一一根线代表一个参数代表塔一西塔2可能一直到s塔20。然后这代表lammbda这代表log lambda等于-7的时候，这个这个所这些所有的sta取值是多少。这样看啊。

当你这个lammbda越大的时候，每一个菲ta都是越来越低的，几乎都是越来越低的啊。随着你这个lammbda的增大，你这个限期一定是越走越低的啊，几乎一定是越走越低的啊，然后慢慢就走到零了。

然后这个东西就没了。这个这个这个参数就之后就不会再出现了。只要只要做到零了以后就一定不会再出现了。所以这这个这个就是你在做的时候，就是这把这个叫拉缩pass，就是拉缩的这个路径啊，这个图是什么意思？

我给大家讲一。😊，也就是说你laber的越大的时候，你这模型越简单，为什么你这里面只有4个参数啊？比如比如在这里面，这里你画一个1234，这4个参数取值不为零啊。你最开始的时候有多少个有有有20个。

那这个模型肯定就越简单啊。那后面后面会讲你这个lam到底怎么选啊？比如你你做出来这个拉so pass了，你lammbda到底取多少？也就是你到底用哪个模型，是模型选择。后后后面后面会讲这个东西。

然后这个是LP报，这个有兴趣的听一下啊，这个P等于2和P等于一是我们最常用的。然后这是P等于无穷，中间就各种其他元就是P大于一，可不可以P小于一大于零啊，这可以的啊。但但是我们为什么不这么做。

因为这不是凸的，不是凸的，没办法优化，所以这个我们不用啊，这就更没办法优化，这更不是凸的，然后这个P等于一和P等于有一个关系啊，你要先把这个P等于零这个东西变成凸的，这个东西只只能是这长成这5个样。

这个东西是只能是这长成这5。所以你所以这也可以理解为为什么零范数就是直接你对参数的个数进行限制，零范数完全抵大于对参数个数进行限制。这个为什么可以思考一下。这个为什么可以思考一下。我刚才也讲过。

对参数个数直接直接进行限制，是没办法优化的。零反数完全等加于参数个数。然后当你对零反数，你想把这个东西变成凸的的时候，只能是长成这样子了。

所以这个时候为什么一反数是那个是可以是可以是可以parse是可以稀数的啊。因为一反数是这个零，你把这零零反数变凸了，就变成一反数了。好，那那你你你刚才刚才你有这个拉sopas了，对吧？

你拉姆da到底怎么选啊，就是有着当你有当你比如你刚才有这个拉ssopa，对吧？你对于不同的一个这个拉sopa。我这个是拉姆的。然后这是每个参数的区。那里还有一些，你还有。当你每次取一个模型出来的时候。

你总归知道它有，比如这里这里有一个的，你总归可以知道这个lamb的对应几个参数，对吧？然后这个lamb的对应的这个值你是能算出来的，这个你是能算出来的。这所以这个东西虽然不能用来优化。

这个东西可以帮助我们选择做模型选择。也就是比如你有10个的你把这10个的对应的这个log比如说在这里面是个IC跟对应有多少个参数，对应多少个参数，把这两个加一加，你就取最小的个这个东西叫AIC啊。

这是做模型选择里面，这个叫AIC。然后注意啊。然后注意啊，这个里面这个里面这个东西只能用来做模型选择，它不能区它不能区分你的模型到底做的有多好啊。因为这个他只能做他只能做这两个东西加起来。

你取最小的那个，那那个小到底有多小，不知道啊。然后然后后面有人就又有做了BIC这两个到底哪个好的，有兴趣好的，有兴趣搜一下，这不一定的。但你在做模型选择的时候，你有好多好多模型，100个模型。

然后100个解释你有100个lammbda，每个lamda都都都对应一个L，每个lamda都对应一个它的参数个数。到底选哪个？你把这两个东西一加，你选最小的哪个这N代表你这个数据数据量数去。Yeah。

这个东西叫BIC呀。那当然如果你。如果你不知道，如果这这这两个是比较有名的两个模型选择方法，但其实最简单的大家还是做pro validation就行。你有你有这你有这么多lambda的时候。

你直接算它的clo validation的 score是多少，它的分数是多少，你选最低的那个就行了。哦我可能有点超时了啊。那晚了10分钟吧，所以也也也也没有超太多。Yeah。对。

然后最后给谢谢大家给大家。我们后面会。我后面后面会有一个数学中的机极学习第二期啊，有兴趣的可以可以报名参加。现在已经报名的有有500多个人了，就全部是讲机器学习里面你需要用到的一些数学基础啊。

大家有兴趣可以去77月的官方网站上看一下。然后我在里面是负责讲概率论这部分啊，我看一下啊，大纲。

我我在里面会讲会讲概率论简结和最大自然估计啊，会把这些东西全部都再讲一遍，会把会把概率论这些东西再讲一遍，然后还会讲一些微微积分，讲一些三形代数图优化。然后有兴趣的有兴趣的同学可以去去看一下。嗯。

有兴的同学可以去看一下这个课啊，就是讲讲数学基础的。K太小是欠拟合。K太小不是啊，K太小是过拟合，K太小不是欠拟合。K太小不是啊，K太小是过拟合，K太小不是欠拟合。K太小不是啊，K太小是过拟合。

K太小不是欠拟合。K太大是。K太大是欠你合啊，这个这个要搞清楚啊。对，L1L one正则如果。对，L1L one正则如果。对，L1LY给大家一下啊。哦，这这个问题回答了啊，K太小是欠拟合，不是啊。

K太小是过拟合。我再回到这个例子啊。你看一下这个例子啊，这个K等于一的时候，你看一下这是红色，蓝色是这个拟合的结果啊。你看这个蓝色，它是应该是什么？蓝色直观上它应该是红色，对吧？那你当K等于一的时候。

你这个东西也就是周围你只要有一个点有一个outline，或者有一个有一个人比比比比比有一个人不太正常啊，他就把周围离他近的人都都变得不太正常了。只要有一个人不太正常，就把周围的人影响都不太正常了。

就是K等于一。那你K等于10的时候，你10个人里面有几个人不正常，要6个人不正常，你才会导致这个人不正常啊。因为这K是你离他最近的6个人，离他最近的是K个人嘛，所以K太小，是过拟合啊，这个这要搞清楚啊。

实际参数超出限制是什么意思啊？你说参数个数吗？那，刚才这个K向小这个问题我回答了啊，LEL正则吧，这这这不是个问题啊，我就跳过了。如果实际参数超出限制。参数值超出限制。这超出限制是什么意思啊？啊？

超出你说超出我那个圈儿吗？😡，Yeah。啊，十对了，所以啊这个我后面还有个例子啊，可能没没没有时间讲。你看啊这就是我刚刚刚才讲的例子啊，这这是一个例子。这个这个这个这个橘黄色的线是真实的线啊。

然后这蓝色的线蓝色的线是你这个模型fit的线啊，这个蓝色的点是你这个模型选出来的点。然后这三个什么区别？就是当你取你你在做Y等于FX的时候，这是取到X的一次方，就是把X1次方，X2次方。

一直取到X4次方。然后这是你一直取到X取到X5次方。你没看到X等于一的时候，你这个东西的范数是多少，是一啊。等于4的时候，你这范数是32函数啊等于15的时候，你等于15的时候，你这二函数这就很大了。

所以所以你这个模型这样，你虽然看到它的训练级啊误差很小很小，但是它因为它也就是说它bi很低啊，bi是什么，bi就是这两个东西减一减，你会看到这bi很低。嗯你说后面那个varience是什么？

后面那个varience是兰ber的加上这个东西啊，我在这里画一下。他那个是lammbda，加上不不是，是那个bias。加上兰姆da对你这个西塔的二函数求值。你看一下这个西的平方的二函数是多少。

C的平方的二函数是这个啊，是28322。看唔清吗。白。当K等于15的时候，就是你取X1次方，X2次方，一直到X的15次方作为作为feature。你这个东西这个 virus就很大啊。

你后面这个这个值就很大。你去你乘个lam姆da还是很大。所以你这个模型的bias virus trade off就不好。因为它的bias太小了，virus太高了，所以它就是少了virus太高了。

所就是 bias trade off不好。那你怎么限制它，你就就是后面把这个姆da变大，da变大，你这个值自然就变小了。拉姆的变大，这个值自然就变小了，所以lam姆的越来越大，你的模型越来越简。

那反而得不到真实值了。你不知道真实值在哪啊。对的，没错，你离真实值越来越远了。没错啊，这个这个很重要啊，你反而得不到真实值了，这个是对的啊。所以你的bias越来越大了，听懂了吗？

也就是说你这个圈越来越小，你越来越得不到真实值，这是对的啊，这说明它的bias越来越大了，但它的varience同时也越来越小了，你在乎的是bias varianceence，这两个东西加起来。😊。

是这个误差，而不是单纯的一个bis，单纯的一个vience。所以所以你说的这是对的啊，越来越得不到真实值是对的，越来越得不到真实值，说明它bias变大了。但道同时，vience变小了。

那我们为什么要把这圈画这么小？因为真因为这个PX刚才讲过了，这个PX很多。能在一个特别小的范围里面做来降低这个东西的 virus。所以这是由于我们只有有线数据导致的。啊。对你你你刚才这个结论是对的啊。

反正做不到真实值。啊，我我我再等两分钟啊，有什么问题可以可以问。如果我能回答的，我会回答。啊，没什么问题，今天就到这里啊，那就到这里了，谢谢大家谢谢大家。😊。

最后最后刚才那个有兴趣的同学有对机器学习中的数学感兴趣的，可以去网站上再看一下啊。报名，现在已经报名的人已经很多，已经5517个人了，有兴趣的在在有兴趣的同学可以看一下，会讲些什么。

这FW同学问的问题我们没没没有看懂啊，score点命是什么？scor点面试 bias吗啊，你说刚才我这代码吗？你说这个东西吗？这东西不是啊，这东西是那个什么是era，是bi virus off。

就是那个是那个误差，这不这个这个这不是bias。对。这个代码这这部分是是误差，不是单纯的RS或者是Y，是两个东西加起来。所以你看它deegre等于15的时候，这值很大。如果这东西是8S的话。

degree等于15的时候，这个值会非常接近于0，这东西会非常接近于0。如果这个东西是是bias的话，因为你这个模型越复杂，你就bi越低嘛。所以说方差偏低。而是对模型说的，不是对数据啊，是对模型说的。

你这模型是随机的模型为什么是随机的？因为你数据是随机随机取出来的，所以模型是随机的模型是根据你的数据做的嘛，所以数据是随机，你模型就是随机的。这我刚才这个可以说是今天今天分享这个东西的最重要的一个干念。

不是这模型是随机的。你这个参数做出来是随机的。accross ready怎么看是因 cross validation最后算的是一个sre嘛。当c learning很简单。

crowread这个刚刚才可能没没有讲清楚啊。authorization就是。就是你不知道这个PX，假如你有个那个PS，就是你就是你你去取这个数据出来。当你啊还要另外多讲一个。

当你模型有模型里面包括这个PX，你把它生成模型。不包货的时候管他叫。判别模型和判。然后你不知但是实际实际实际操作的时候，我们不知道PX是什么。所以假设这是假设这种所有所有人所有有的数据的话。

我们人为的把这数据分成两部分，一部分变我人为的把这数据分成两部分，一部分变你最在乎的是 error，并不是bias或者是并不是，你在乎的是这个 error。所以你在训练的时候，就在这里面训练。

然后你得得到一个 error，对吧？然后你把你把这个这部分数据，你并不去看它，并不去做模型的时候，并不用这部分数据。那你模型做好了，把你的模型在这上面应用一下，你再算个er。

你希望这两个ever比较接近啊，这说明你的模型没有过拟合，为什么比较接近，没有过拟合？因为比较接近，说明你这个分布很细啊。说明对于不同的数据而言，你这个模型很稳定。对于不同的数据而言，你该模型很稳定。

咁。很举个例子啊，咱们这模型对于所有的数据全部输全部输出。输出全部是零啊，不管数据是什么？那这时候你这这两个er一定是一样的啊，然后他们的所以你的模型很稳定啊，永远稳定的输出零，但是没用啊。

稳定的输出零没用啊，你要求稳定。同时这个值比一要就值要比低不能太。所以你在做cross也比简也比较简单，就是你看你这个模型把它分成K分，每次的时候用K减一分，填K减一分做训练。对最后一分做测试。

然后把这个把这思考加起来，把这思考加起来，就是选4高最低的这是做模型选择的另外一个。这是我刚才刚才讲过啊，那模型选择的时候有有有有三种做法，一种是你用AICBIC去选。

一种就是你不管AICBIC你直接去用cross validation去选。一般情况下，大家还是用cros啊，不不太用这个AICBSC。这个清楚了吧，考怎么看过拟合，就是你把数据分成两部分。

你看你的模型在这两部分里面表现是不是稳定。稳定就说明没有过拟盒。好，那今天那今天就到这吧，谢谢大家谢谢大家嗯。😊。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/820783.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！