应用机器学习的建议

一、决定下一步做什么

        在你得到你的学习参数以后,如果你要将你的假设函数放到一组新的房屋样本上进行测试,假如说你在预测房价时产生了巨大的误差,你想改进这个算法,接下来应该怎么办?实际上你可以考虑先采用下面的几种方法:

  1. 获得更多的训练实例

  2. 尝试减少特征的数量

  3. 尝试获得更多的特征

  4. 尝试增加多项式特征

  5. 尝试减少正则化程度\lambda

  6. 尝试增加正则化程度\lambda

我们不应该随机选择上面的某种方法来改进我们的算法,而是运用一些机器学习诊断法来帮助我们知道上面哪些方法对我们的算法是有效的。“诊断法”的意思是这是一种测试法,你通过执行这种测试,能够深入了解某种算法到底是否有用,这通常也能够告诉你,要想改进一种算法的效果,什么样的尝试才是有意义的

二、评估一个假设

        在本节内容中我想介绍一下怎样用你学过的算法来评估假设函数,在之后的内容中,我将以此为基础来讨论如何避免过拟合和欠拟合的问题

        当我们确定学习算法的参数的时候,我们考虑的是选择参数来使训练误差最小化,有人认为得到一个非常小的训练误差一定是一件好事,但我们已经知道,仅仅是因为这个假设具有很小的训练误差,并不能说明它就一定是一个好的假设函数,而且我们也学习了过拟合假设函数的例子,所以这推广到新的训练集上是不适用的。

        那么,你该如何判断一个假设函数是过拟合的呢?对于某个简单的例子,我们可以对假设函数h(x)进行画图,然后观察图形趋势,但对于特征变量不止一个的一般情况,想要通过画出假设函数来进行观察,就会变得很难甚至是不可能实现,因此,我们需要另一种方法来评估我们的假设函数。为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集,很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。

测试集评估在通过训练集让我们的模型学习得出其参数后,对测试集运用该模型,我们有两种方式计算误差:

  • 对于线性回归模型,我们利用测试集数据计算代价函数J

  • 对于逻辑回归模型,我们除了可以利用测试数据集来计算代价函数外:

  • 还可以对于每一个测试集实例计算误分类的比例:

    然后对计算结果求平均

三、模型选择和交叉验证集

假设我们要在10个不同次数的二项式模型之间进行选择:

显然次数越高的多项式模型越能够适应我们的训练数据集,但是适应训练数据集并不代表着能推广至一般情况,我们应该选择一个更能适应一般情况的模型,因此我们需要使用交叉验证集来帮助选择模型,即:使用60%的数据作为训练集,使用 20%的数据作为交叉验证集,使用20%的数据作为测试集

模型选择的方法为:

  1. 使用训练集训练出10个模型

  2. 用10个模型分别对交叉验证集计算得出交叉验证误差(代价函数的值)

  3. 选取代价函数值最小的模型

  4. 用步骤3中选出的模型对测试集计算得出推广误差(代价函数的值)

 

四、诊断偏差和方差

推荐一篇写得很好的关于偏差和方差的文章:机器学习 -偏差与方差 - 知乎

        当你运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟合问题。那么这两种情况,哪个和偏差有关,哪个和方差有关,或者是不是和两个都有关?搞清楚这一点非常重要,因为能判断出现的情况是这两种情况中的哪一种其实是一个很有效的指示器,指引着可以改进算法的最有效的方法。

Bias(偏差):用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异

Variance(方差):是不同的训练数据集训练出的模型输出值之间的差异

我们通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析:(d:多项式的最高次数)

对于训练集,当 d 较小时,模型拟合程度更低,误差较大;随着 d 的增长,拟合程度提高,误差减小;对于交叉验证集,当 d 较小时,模型拟合程度低,误差较大;但是随着 d 的增长,误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候

根据上面的图表,我们知道:

训练集误差和交叉验证集误差近似时:高偏差/欠拟合

交叉验证集误差远大于训练集误差时:高方差/过拟合

五、正则化和偏差/方差

        在我们训练模型的过程中,一般会使用一些正则化方法来防止过拟合,但是我们可能会正则化的程度太高或太小了,即我们在选择λ的值时也需要思考与刚才选择多项式模型次数类似的问题

我们选择一系列的想要测试的\lambda值,通常是 0-10之间的呈现2倍关系的值,如:0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共12个),我们同样把数据分为训练集、交叉验证集和测试集

选择\lambda的方法为:

  1. 使用训练集训练出12个不同程度正则化的模型

  2. 用12个模型分别对交叉验证集计算的出交叉验证误差

  3. 选择得出交叉验证误差最小的模型

  4. 运用步骤3中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上:

• 当$\lambda$较小时,训练集误差较小而交叉验证集误差较大

• 随着 $\lambda$的增加,训练集误差不断增加,而交叉验证集误差则是先减小后增加

六、学习曲线

        学习曲线就是一种来判断某一个学习算法是否处于偏差、方差问题的很好的工具,学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量(m)的函数绘制的图表。如果我们有100行数据,我们从1行数据开始,逐渐学习更多行的数据。思想是:当训练较少行数据的时候,训练的模型将能够非常完美地适应较少的训练数据,但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据

 

如何利用学习曲线识别高偏差/欠拟合:作为例子,我们尝试用一条直线来适应下面的数据,可以看出,无论训练集有多么大误差都不会有太大改观,也就是说在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助

如何利用学习曲线识别高方差/过拟合:假设我们使用一个非常高次的多项式模型,并且正则化非常小,可以看出,当交叉验证集误差远大于训练集误差时,往训练集增加更多数据可以提高模型的效果,也就是说在高方差/过拟合的情况下,增加更多数据到训练集可能可以提高算法效果

七、回答开头的问题

        我们已经介绍了怎样评价一个学习算法,我们讨论了模型选择问题、偏差和方差的问题。那么这些诊断法怎样帮助我们判断,哪些方法可能有助于改进学习算法的效果,而哪些可能是徒劳的呢?让我们再次回到最开始的例子在那里寻找答案,回顾开头提出的六种可选的下一步,让我们来看一看我们在不同的情况下应该怎样选择:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/434164.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++初阶入门之命名空间和缺省参数的详细解析

个人主页:点我进入主页 专栏分类:C语言初阶 C语言进阶 数据结构初阶 Linux C初阶 欢迎大家点赞,评论,收藏。 一起努力,一起奔赴大厂 目录 一.前言 二.命名空间 2.1命名冲突的例子 2.2解决方案 2.3命…

如何让思维系统化,拥有「自己的想法」?

先思考一个问题: 如果外星人来访地球,你觉得他们更有可能是善意的,还是恶意的? 你的反应是什么,会如何切入思考? 一般人可能会这样回答: 当然是恶意的,因为要争夺资源啊,…

基于LLaMA-Factory的微调记录

文章目录 数据模型准备基于网页的简单微调基于网页的简单评测基于网页的简单聊天 LLaMA-Factory是一个非常好用的无代码微调框架,不管是在模型、微调方式还是参数设置上都提供了非常完备的支持,下面是对微调全过程的一个记录。 数据模型准备 微调时一般…

JavaScript高级:构造函数

1 引言 构造函数是一种特殊的函数&#xff0c;主要用来初始化对象&#xff1b;常规的 {...} 语法允许创建一个对象&#xff0c;但是通过构造函数可以快速创建多个类似的对象 2 约定 1. 命名以大写字母开头&#xff1b; 2. 它们只能由 “new” 操作符来执行 <script>//…

dubbo和eureka的区别

dubbo可以作为客户端&#xff0c;也可以作为服务端&#xff0c;因此他内置了很多序列化框架可供选择&#xff0c;通过配置可以进行选择。默认是hession&#xff0c;还有gson&#xff0c;fastJson&#xff0c;jdk自带的序列化。 eureka只能作为服务端&#xff0c;他序列要与客户…

HCIP复习课(bgp实验)

1、ip配置&#xff1a; R1&#xff1a; R2&#xff1a; R3&#xff1a; R4&#xff1a; R5&#xff1a; R6&#xff1a; R7&#xff1a; R8&#xff1a; 2、bgp配置&#xff1a; R1&#xff1a; R2&#xff1a; R3&#xff1a; R4&#xff1a; R5&#xff1a; R6&#xff1a;…

新鲜出炉腾讯云幻兽帕鲁服务器租用价格表

腾讯云幻兽帕鲁服务器4核16G、8核32G和16核64G配置可选&#xff0c;4核16G14M带宽66元一个月、277元3个月&#xff0c;8核32G22M配置115元1个月、345元3个月&#xff0c;16核64G35M配置580元年1个月、1740元3个月、6960元一年&#xff0c;腾讯云百科txybk.com分享腾讯云幻兽帕鲁…

计算机组成原理 — 系统总线

系统总线 大家好呀&#xff0c;我是小笙&#xff0c;最近我开启了计算机组成原理的知识总结和分享&#xff0c;希望对大家有点帮助&#xff01; 总线的基本概念 总线是连接各个部件的信息传输线&#xff0c;是各个部件共享的传输介质。&#xff08;注意&#xff1a;在某一时…

数据结构(顺序表)

文章目录 一、线性表1、线性表1.1、线性表的定义1.2、线性表的操作 2、顺序表2.1、顺序表的实现--静态分配2.2、顺序表的实现--动态分配2.2、顺序表的特点 3、顺序表的基本操作3.1、插入操作3.2、删除操作3.3、查找操作3.2、按位查找3.2、按值查找 一、线性表 1、线性表 1.1、…

keil使用教程

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、pandas是什么&#xff1f;二、使用步骤 1.引入库2.读入数据 总结 前言 例如&#xff1a;随着人工智能的不断发展&#xff0c;机器学习这门技术也越来越重…

【教程】MobaXterm软件Keygen快速生成注册码

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 1、去官网安装正版软件&#xff0c;比如23.6版本的&#xff1a;MobaXterm free Xserver and tabbed SSH client for Windows 2、打开这个网站&#xff0c;输入信息&#xff1a;MobaXterm Keygen 3、将自动下载的C…