【机器学习】划分训练集和测试集的方法

在机器学习中,我们的模型建立完成后,通常要根据评估指标来对模型进行评估,以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此,我们在模型训练之前,要对训练集和测试集进行划分。一般数据集划分的方法有四种:留出法、交叉验证法、留一法、自助法。

在这里插入图片描述
注:数据集D划分为两个互斥的的集合,其中一个集合作为训练集S,另一个作为测试集T

数据集的具体划分方法

1.留出法
留出法直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S ,另一部分用作测试集T。用训练集T进行模型训练,测试集S来评估误差。

在这里插入图片描述
在此划分数据集上,训练/测试集的划分要尽可能保持数据分布的一致性,避免因为数据的分布差距较大对模型的训练结果产生影响。例如在二分类问题上,要保证数据样本的类别分布均匀,则我们通常采用分层采样对数据进行划分比如,现在有1000个数据样本,其中500个正例,500个反例,如果训练集:测试集为7:3,则我们采用分层采样随机取70%的训练集和30%的测试集。划分结果中训练集中包含350个正例和350个反例;测试集中包含150个正例和150个反例。
留出法在选择划分比例时,常常会出现很多问题,如果训练集的比例较大,可能会导致训练出的模型更接近于用D训练出的模型,同时测试集较小,会使评估结果不准确,模型的方差较大;若测试集的比例较大,则有可能导致训练的模型偏差较大,从而降低了评估的保真性。因此,常见的做法是将大约2/3~4/5的样本用于训练,比例划分两类训练集:测试集可以是6:4、7:3或8:2。 如果是三类训练集:验证集:测试集可以是6.2.2,验证集是可选值,但项目越庞大越需要验证集。

2.交叉验证法
(1)首先将数据集D划分为k个大小相似的互斥子集, 每个子集 都尽可能保持数据分布的一致性,即从 D 中通过分层采样得到。( 2 )其次,每次用 k − 1 个子集的并集作为训练集,剩余下的子集作为测试集。( 3 )最后,可获得 k 组训练 / 测试集,从而可进行 k 次训练和测试,取 k 个测试结果的均值 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。 (2)其次,每次用k-1个子集的并集作为训练集,剩余下的子集作为测试集。 (3)最后,可获得k组训练/测试集,从而可进行k次训练和测试,取k个测试结果的均值 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。(2)其次,每次用k1个子集的并集作为训练集,剩余下的子集作为测试集。(3)最后,可获得k组训练/测试集,从而可进行k次训练和测试,取k个测试结果的均值

交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,因此,交叉验证法称为”k折交叉验证”(k-fold cross validation),k通常取10,称10折交叉验证。

在这里插入图片描述
与留出法类似,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的10次10折交叉验证。

3.留一法
留一法作为交叉验证法的一种特殊情况,具体方法就是使k等于数据集中数据的个数,每次只使用一个作为测试集,剩余的全部作为训练集,重复采样取平均值。这种方法得出的结果与训练整个测试集的期望值最为接近,具有确定性。但是成本要求较高,没有采用分层采样,存在偏差。

4.自助法
自助法是一种从给定训练集中有放回的均匀抽样,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。

自助法以自助采样法为基础,给定包含 m 个样本的数据集 D,每次随机从 D 中挑选一个样本,放入 D ′ 中,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到;重复执行 m 次后,则包含 m 个样本的数据集。 D'中,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到;重复执行 m 次后,则包含m个样本的数据集 。 D中,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;重复执行m次后,则包含m个样本的数据集。

自助法中样本在m 次采样中始终不被采到的概率是 , 取极限得到 : 即中约有 36.8 ,取极限得到: 即 中约有36.8%的样本未出现在 中。于是将 用作训练集, 用作测试集。通过概率计算,经过m次抽样后会有约1/3的样本,始终不会被抽到,这部分数据可以用来测试。 ,取极限得到:即中约有36.8

自助法在数据集较小、难以有效划分训练/测试集时很有用;然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/195407.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每天一道算法题(六)——返回一组数字中所有和为 0 且不重复的三元组

文章目录 前言1、问题2、示例3、解决方法4、效果5、注意点 前言 注意:答案中不可以包含重复的三元组。 1、问题 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足 nums[i] n…

Transformer中位置嵌入的几种形式对比

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️ 👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博…

git rebase 和 git merge的区别?以及你对它们的理解?

文章目录 前言是什么分析区别后言 前言 hello world欢迎来到前端的新世界 😜当前文章系列专栏:git操作相关 🐱‍👓博主在前端领域还有很多知识和技术需要掌握,正在不断努力填补技术短板。(如果出现错误,感谢…

【开发流程】持续集成、持续交付、持续部署

一、开发工作流程 假设把开发流程分为以下几个阶段: 编码 -> 构建 -> 集成 -> 测试 -> 交付 -> 部署 如上图所示,持续集成、持续交付、持续部署有着不同的软件自动交付周期。 二、持续集成、持续交付、持续部署 1、持续集成 持续集成…

git基本用法和操作

文章目录 创建版本库方式:Git常用操作命令:远程仓库相关命令分支(branch)操作相关命令版本(tag)操作相关命令子模块(submodule)相关操作命令忽略一些文件、文件夹不提交其他常用命令 创建版本库方式: 创建文件夹 在目录下 右键 Git Bush H…

Lesson 04 模板入门

C:渴望力量吗,少年? 文章目录 一、泛型编程1. 引入2. 函数模板(1)函数模板概念(2)函数模板格式(3)函数模板的原理(4)函数模板的实例化&#xff08…

hypermesh学习总结(一)

1、hypermesh导入导出 2、hypermesh如何使用拓扑命令,连接多个几何体为一个? 3、hypermesh模式选择 分别有显示动力学模式explicit,标准模式Standard3D(静力学及模态等)

Linux管道的工作过程

常用的匿名管道(Anonymous Pipes),也即将多个命令串起来的竖线。管道的创建,需要通过下面这个系统调用。 int pipe(int fd[2]) 我们创建了一个管道 pipe,返回了两个文件描述符,这表示管道的两端&#xff…

什么是tomcat, tomcat该如何使用?(java)

tomcat是什么? tomcat翻译过来为汤姆猫, 但是他可不是猫和老鼠中的汤姆, 而是java中的tom, 虽然java中的tomcat没有猫和老鼠那么出名, 但是他仍然是java中的中流砥柱 下图为java中的tomcat, 也就是最右边这个黄色的猫: Tomcat是Apache 软件基金会(Apache Software …

异常语法详解

异常语法详解 一:异常的分类:二:异常的处理1:异常的抛出:throw2:异常的声明:throws3:try-catch捕获并处理异常 三:finally关键字四:自定义异常类: 一:异常的分类&#xf…

【机器学习】特征工程:特征选择、数据降维、PCA

各位同学好,今天我和大家分享一下python机器学习中的特征选择和数据降维。内容有: (1)过滤选择;(2)数据降维PCA;(3)sklearn实现 那我们开始吧。 一个数据集中…

【Python】Loguru模块更简洁的日志记录库

Loguru: 更优雅的日志记录解决方案! loguru 是一个Python 简易且强大的第三方日志记录库,该库旨在通过添加一系列有用的功能来解决标准记录器的注意事项,从而减少 Python 日志记录的痛苦。 使用自带自带的 logging 模块的话,则需要…