斯坦福机器学习 Lecture2 (假设函数、参数、样本等等术语,还有批量梯度下降法、随机梯度下降法 SGD 以及它们的相关推导,还有正态方程)

假设函数定义
假设函数,猜一个 x->y 的类型,比如 y = ax + b,随后监督学习的任务就是找到误差最低的 a 和 b 参数

在这里插入图片描述
有时候我们可以定义 x0 = 1,来让假设函数的整个表达式一致统一

在这里插入图片描述
如上图是机器学习中的一些术语

在这里插入图片描述
额外的符号,使用 (xi, yi) 表示第 i 个样本

n 表示特征数量 (在房屋价格预测问题中,属性/特征有两个:房子面积和卧室数量,因此这里 n = 2)

在这里插入图片描述
监督学习的过程就是选择合适的参数,来让假设函数的输出和样本输出相近(针对训练集)

在这里插入图片描述
房屋预测案例中的目标函数,最小化误差平方和

在这里插入图片描述
我们通常会在目标函数旁边放个 1/2,这是为了后边简化求导计算

在这里插入图片描述

我们通常使用梯度下降法来选取更加合适的 theta参数 来优化目标函数,如上图是梯度下降法中的 “baby step”

这里的 阿尔法 就是学习速率

在这里插入图片描述
如图,是对目标函数的求导 (由于对几个项的和求导,等于它们的导数和,所以这里我们先不 care 那个 sum(sigma) 符号)

在这里插入图片描述

如图,是对求导公式的后续转换

在这里插入图片描述
如图,这是对目标函数求导的最终公式的其中一项 (这里只对 theta_j 求导)

在这里插入图片描述

这也是最后统合得到的求导公式,对每一个样本 i 进行针对 theta_j 的求导

接下来要做的就是,重复 updating theta_j,直到目标函数收敛

在这里插入图片描述
由于我们的目标函数对于每个 theta_j 都是二次函数,所以这是一个凸函数,它是一个大碗,它只有一个全局最优

在这里插入图片描述
也可以用等高线图来表示

运用高中的一些数学知识,你会发现,最陡的防线和等高线(椭圆)的切线是90度

调试学习率的一些经验:
如果你发现目标函数在增加而不是减少,那通常说明学习率太大了(超调)
可以尝试 O1, O2, O4, O8 尝试不同的值

在这里插入图片描述

另一种可视化学习过程的方式是,看到曲线(假设函数)一点点变化

刚刚提到的机器学习方法中,梯度下降需要用到训练集中所有的样本,来计算梯度(所以也叫批量梯度下降法)。在训练集很大的情况下,这会变得昂贵,因此我们需要做些改变

在这里插入图片描述
另一种快得多的方式是随机梯度下降法,它遍历每一个样本 i,随后针对这单个样本对所有的 theta_j 做梯度下降

(原先的方法中,我们每做一个 tiny step 都需要扫描一次所有的样本;而 SGD 中,我们每走一个 step 只需要扫描一个样本,因此快得多)

一个更直观的解释 SGD 的方式是,一开始我的 theta 参数是随机的,然后我看到了第一个样本 x1,随后我针对这个 x1 修改的我 theta,接着我看到了 x2,我再针对 x2 修改我的 theta。在等高线图中,你可能会看到,参数并没有沿着 90 度的方向下降,而是以一种更曲折的方式下降

SGD 通常不会收敛,它会振荡

还有一种下降方法是“小批量梯度下降法”,一次遍历100个样本

还有一种实践中的方法(一点点减少学习速率)

线性回归没有局部最优(在它的目标函数是误差平方和时),只有全局最优。所以,实际上你可以使用一个矩阵去表示它的参数,求cost function(目标函数)对于 参数矩阵的求导,随后让导数 = 0,求这个位置上的导数矩阵,即可直接得到全局最优解。这也叫做正态方程,这个方法仅适用于线性回归

在这里插入图片描述
根据吴恩达的推导,正态方程,也就是最终最优的 theta 可以通过这么一个公式求出来

如果发现 X 不可逆,那么通常意味着有多余的 features,你有某些 features 是线性相关的,你可以使用伪逆,或者找出哪些特征是线性相关的

关于怎么选择学习率:这非常依赖经验,通常我们尝试许多个不同的值,然后选择一个

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/196107.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于灰色神经网络的预测算法——订单需求预测

大家好,我是带我去滑雪! 灰色系统理论的不确定性处理与神经网络的非线性建模相结合,有望更好地处理实际问题中的不确定性和复杂性。本期使用灰色神经网络实现预测冰箱订单需求。 一、问题背景与模型建立 (1)灰色理论…

测试Bard和ChatGPT关于双休的法规和推理

Bard是试验品,chatgpt是3.5版的。 首先带着问题,借助网络搜索,从政府官方网站等权威网站进行确认,已知正确答案的情况下,再来印证两个大语言模型的优劣。 想要了解的问题是,在中国,跟法定工作…

达标进度条

1.效果 1. 2.代码与使用 1.自定义组合控件 kotlin import android.annotation.SuppressLint import android.content.Context import android.graphics.drawable.Drawable import android.util.AttributeSet import android.view.Gravity import android.view.LayoutInflat…

进程之理解进程的概念

你必须非常努力,才能看起来毫不费力。文章目录 进程的基本概念描述进程——pcbtest_struct pcb的一种task_struct 内容分类 组织进程查看进程通过系统调用获取进程标示符总结 进程的基本概念 课本概念:进程是一个执行实列,正在执行的程序等。…

C语言——1.入门须知

文章目录 1.C语言的简要概述1.1.C语言类比自然语言1.2.计算机语言的发展1.3.C语言在当今的地位1.4.C语言的优势和劣势1.4.1.C语言的优势1.4.2.C语言的劣势 2.C语言的应用场景3.C语言的学习路径3.1.学习目的3.2.学习路径3.3.学习资源3.3.1.推荐书籍3.3.2.推荐课程3.3.3.推荐题库…

Codeforces Round 910 (Div. 2)(D~F)

1898D - Absolute Beauty 题意:给定长度为n的数组a和b,定义b数组的价值为,现可以交换一次b数组中的任意两个元素,求b数组的价值最大值。 思路:绝对值问题可以放在数轴上去解决。绝对值即为区间长度 观察上述三种情况&…

《微信小程序开发从入门到实战》学习十九

3.3 开发创建投票页面 3.3.7 wx:for列表渲染 接下来为创建的投票页面添加一个“添加选项”的功能。需要用户输入文字,应该使用input组件。头投票的数量是不确定的,面对不确定数量的组件的情况时,可以使用wx:for属性对组件进行列表渲染。 使…

【腾讯云 HAI域探秘】——即时职场生存指南小游戏以及【自行搭建Stable Diffusion图片AI绘制 | ChatGLM2-6B AI进行智能对话 | Pytorch2.0 AI框架视频处理】

利用HAI的ChatGLM2 6B做一个即时对话小游戏 ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了更强大的性能、更长的上下文、更高效的推理,…

git使用及常用命令

在初入公司中,若使用的是git管理工具,需要做以下步骤: 1,常用命令在: (1),git config --global user.name xxx(名字) //若不设置 那么下次提交代码时会报错 其次该设置名字和…

【运维篇】Redis常见运维命令详解

文章目录 1. 前言2. 连接管理命令详解2.1 AUTH命令2.2 PING命令2.3 SELECT命令2.4 QUIT命令 3. 服务器管理命令详解3.1 FLUSHALL命令3.2 SAVE/BGSAVE命令3.3 SHUTDOWN命令 4. 安全管理命令详解4.1 CONFIG命令4.1.1 CONFIG SET命令用法4.1.2 CONFIG GET命令用法 4.2 AUTH命令 5.…

六、文件上传漏洞

下面内容部分:参考 一、文件上传漏洞解释 解释:文件上传漏洞一般指的就是用户能够绕过服务器的规则设置将自己的木马程序放置于服务器实现远程shell(例如使用蚁剑远程连接),常见的木马有一句话木马(php) 无需启用sho…

【C++】【Opencv】霍夫直线检测即cv::HoughLinesP()函数详解和示例

cv::HoughLinesP()(函数霍夫直线)功能分析是一种用于检测图像中直线的算法,它基于霍夫变换的原理。通过该算法,我们可以从图像中提取出直线信息,从而对图像进行分析和处理。主要经理边缘检测和霍夫直线处理两个步骤。本…