数据分离和混淆矩阵的学习

1.明确意义

通过训练集建立模型的意义是对新的数据进行准确的预测(测试集的准度高才代表good fit);

2.评估流程

在这里插入图片描述

3.单单利用准确率accuracy进行模型评估的局限性

模型一:一共1000个数据(分别为900个1和100个0),850个1和50个0预测准确(一共两类),所以准确率为(850+50)/1000=90%,而对于每一类:1的类为850/900的准确率;而对于0的类:50/100的准确率;
模型二:一共1000条数据,预测为900个1正确,准确率为900/1000=90%。而对于值为1的类:900/900=1,所以以后的每条数据预测都会为1,这样就会出现空准确率的情况;
在这里插入图片描述
总结:需要考虑每一类本身的分布比例(比如1:0=9:1)
在这里插入图片描述

4.解决方案(混淆矩阵)

前一个为T:代表预测正确;
后一个为Postives:代表模型预测正确;
在这里插入图片描述

1.如何利用TP,TN,FP,FN进行模型的评估

在这里插入图片描述

在这里插入图片描述
计算指标:
在这里插入图片描述

2.混淆矩阵的特点:

在这里插入图片描述

5.模型优化

1.用什么模型:
在这里插入图片描述
2.具体算法的核心结构以及参数如何选择?
比如逻辑回归的函数g(x)如何选择,线性还是多项式等等
Knn的邻居参数
在这里插入图片描述
3.如何提高模型表现?

数据质量决定模型表现的上限
判断是否有异常数据:我们可以用异常检测法检测有没有异常数据,然后将其排除或者保留(保留的主要目的是考虑了数据的适用性)。
数据的意义:是否为无关数据。
对于数据的标签结果:统一管理
尝试更多的模型
在这里插入图片描述
在这里插入图片描述

4.举个例子:利用高斯分布概率统计异常检测
1.数据分布统计——>2.高斯分布概率统计分析异常——>3.优化:PCA分析维度是否可以减少——>4.尝试不同的模型进行优化
在这里插入图片描述
在这里插入图片描述

5.确定一个模型后,如何让模型的表现更好

在这里插入图片描述
模型的参数的选择:
比如出现欠拟合的情况,模型不能很好的预测样本,我们可以降低KNN的参数n_neighbors值,越降低,模型复杂度越高。
模型复杂度越高说明训练集的准确率越高,但不代表测试集的准确率会很高,需要进行调整。
在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/700880.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搜索引擎的设计与实现(三)

目录 5 系统详细实现 5.1实现环境配置 5.2功能实现 5.2.1 建立索引 5.2.2 文件搜索实现 5.2.3 数据库的连接配置 5.2.4 数据库搜索实现 5.2.5 后台数据编辑实现 前面内容请移步 搜索引擎的设计与实现(二) 免费源代码&毕业设计论文 搜索…

8.基于鱼鹰优化算法(OOA)优化VMD参数(OOA-VMD)

代码原理 鱼鹰优化算法(Osprey Optimization Algorithm, OOA)是一种基于仿生学原理的启发式优化算法,它模拟了鱼鹰觅食的行为,通过调整搜索空间中的个体位置来优化目标函数。 鱼鹰优化算法可参考:鱼鹰优化算法(Ospre…

企业运维背后的故事:TASKCTL带你了解日常工作与技术演进

今天,作为一名经验丰富、从业多年经常与运维人员打交道的人,我想与大家聊聊运维的日常工作、部门协调以及未来发展,希望能为即将转行或正在从事运维工作的你,提供一些新的视角和启发。 运维的日常工作:挑战与乐趣并存 …

ConfigError: Main class ‘XXX’ doesn’t exist in the workspace.Vscode

前言 唉,又是被Vscode折磨的一个晚上,本想好好写点代码的,却被一个个小问题搞得团团转,服了。 错误原因分析 正如标题所示,这是扩展“Java->debug”抛出的一个错误,意思是这个“XXX”主类不在工作区内…

【35分钟掌握金融风控策略27】贷中风控策略与客户运营体系

目录 贷中风控策略与客户运营体系 贷中风控日标 贷中风控数据源 贷中风控策略与客户运营体系 贷中是风控的第二道防线,贷中阶段风控的重点工作就是存量客户风控及运营。在当下,新客市场趋于饱和且获客成本越来越高,所以,在做好…

【Unity Shader入门精要 第7章】基础纹理补充内容:MipMap原理

1.纹理采样 我们对纹理采样进行显示的过程,可以理解为将屏幕上的一个像素(下文用像素表示)映射到纹理上的一个像素(下文用纹素表示),然后用纹理上的这个像素的颜色进行显示。 理想情况下,屏幕…

C++ 多态性

一 多态性的分类 编译时的多态 函数重载 运算符重载 运行时的多态 虚函数 1 运算符重载的引入 使用C编写程序时,我们不仅要使用基本数据类型,还要设计新的数据类型-------类类型。 一般情况下,基本数据类型的运算都是运算符来表达&#x…

弥合孤岛:克服构建 DevOps 文化的挑战

持续变革正在发生软件开发行业。DevOps 因其对自动化、协作和持续改进的关注而成为优化软件交付并弥合开发和运营团队之间鸿沟的重要方法。然而,过渡到真正的 DevOps 文化并非没有挑战。本文探讨了您在追求 DevOps 时可能面临的障碍并提供了解决方案。 01 了解 Dev…

听说SOLIDWORKS科研版可以节约研发成本?

近几年来,政府越来越重视科研带动产业,绩效优良的产业技术研究院对于国家和地区的学术成果转化、技术创新、产业发展等具有不可忽视的促进和带动作用。研究院会承担众多新产业的基础研究工作,而常规的基础研究需要长期的积累,每个…

探讨 cs2019 c++ 的STL 库中的模板 conjunction 与 disjunction

(1)在 STL 库源码中这俩模板经常出现,用来给源码编译中的条件选择,模板的版本选择等提供依据。先给出其定义: 以及: 可以得出结论: conj 是为了查找逻辑布尔型模板参数中的第一个 false &#x…

RK3566(泰山派):GP7101背光驱动

RK3566(泰山派):GP7101背光驱动 文章目录 RK3566(泰山派):GP7101背光驱动GP7101背光驱动电路配置i2c1设备树创建驱动编写Makefilegp7101_bl.c驱动触摸I2C驱动框架。驱动中的结构体probe函数devm_backlight_…

DHCP原理

什么是DHCP DHCP (Dynamic Host Configuration Protocol,动态主机配置协议)是由Internet工作任务小组设计开发的,专门用于为TCP/IP网络中的计算机自动分配TCP/IP参数的协议,是一个应用层协议,使用UDP的67和68端口。 DHCP的前身是B…