一文讲透Python机器学习特征选择角度的卡方检验

机器学习特征选择角度的卡方检验是计算特征变量与响应变量之间的χ2统计量。χ2统计量越大,则特征变量与响应变量之间独立的概率就越小,相关性就越大。因此,χ2统计量大的特征变量将会被优先选择用于预测。

在使用卡方检验时,会返回F值和p值两个统计量。其中特征变量的F值越大,越倾向于选择该特征变量;而p值则是与F值相对应的统计量,特征变量的P值越小,则越倾向于选择该特征变量。P值的参照标准一般为0.05。

卡方检验的Python代码示例如下:

运行结果如图所示。

其中上面的array数组为各个特征变量的卡方统计量值,下面的array数组为各个特征变量的P统计量值,可以发现除了第2个特征变量之外的其他特征变量的P值都小于0.05,都是比较显著的。我们可以根据这一原则来过滤特征变量,也可以用SelectKBest()挑选卡方统计量值最大的前N个变量:

运行结果为:[22.983  2.909  1048.46   113.807  115.741  816.63   146.173   54.549]。可以发现第3个、第6个、第7个特征变量的卡方统计量值是最大的。

运行结果为:Index(['age', 'education', 'workyears', 'resideyears', 'income', 'debtratio', 'creditdebt', 'otherdebt'],dtype='object')。可以发现第3个、第6个、第7个特征变量分别为workyears、debtratio、creditdebt。

运行结果如图所示。

 上述内容节选自 《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。

很多朋友反映学Python、学机器学习比较难、效果不好,我的观点是:需要拿到Python、机器学习的源代码边学习边操作,从解决问题、上手操作中获得成就感,才会越学越深入,学习效果才会好。

针对数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。《Python机器学习原理与算法实现》一书创作完成后,在正式出版之前,已经开发成一套系统课程,分9次授课,在某银行内部开展了培训,490人根据行内组织统一学习,授课完成后放在知鸟平台供回放学习,9次课程累计回放量近3万次,得到参训学员的一致好评,广泛应用于各位学员的工作实践。(所以,这是一本避雷避坑、已经被亲测可行的网红书,只要用心学,都没问题哦)

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)

《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院 刘一鸣 副研究员、硕士生导师,得厚投资合伙人 张伟民等一众大牛联袂推荐。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供“从拿到数据开始,一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。

两本书随书赠送的学习资料也很多,包括全部的源代码、PPT、思维导图,还有10小时以上的讲解视频,每一章后面还有练习题及参考答案,还有学习群,相对于只看网络上的视频,一方面更加系统、高效,另一方面照着书一步步操作学起来也事半功倍。全网热销中,当当、京东等平台搜索“Python机器学习 杨维忠”“Python数据科学 杨维忠”即可。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/444439.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k8s Sidecar filebeat 收集容器中的trace日志和app日志

目录 一、背景 二、设计 三、具体实现 Filebeat配置 K8S SideCar yaml Logstash配置 一、背景 将容器中服务的trace日志和应用日志收集到KAFKA,需要注意的是 trace 日志和app 日志需要存放在同一个KAFKA两个不同的topic中。分别为APP_TOPIC和TRACE_TOPIC 二、…

【GEE】基于GEE批量下载Landsat8 L2A数据(整幅)

之前发过一篇使用GEE下载Landsat8的文章,然后有很多小伙伴私信我各种问题,如L1C、L2数据代码怎么修改,如何镶嵌,如何去云、 如何裁剪等一系列问题。正好快过年了,手头的事也没有多少了,所以这两天整理了一下…

如何保证接口幂等性

接口幂等性是指对同一操作发起的一次或多次请求结果是一致的,并且不会因为重复请求而产生副作用。 例如前端应用对后端发出请求,可能由于网络原因,前端并未接收到后端响应,前端进行重试,对后端同一接口发出多次请求 假…

Django模型(六)

一、其它查询 文档:https://docs.djangoproject.com/zh-hans/4.1/ref/models/querysets/#count 1.1、排序 Queryset.order_by(*fields) 默认情况下,QuerySet 返回的结果是按照模型 Meta 中的 ordering 选项给出的排序元组排序的 可以通过使用 order_by 方法在每个 QueryS…

【前端web入门第二天】03 表单-下拉菜单 文本域 label标签 按钮 【附注册信息综合案例】

文章目录: 1. 下拉菜单 2. 文本域3.label标签 4.按钮- button 4.1 reset重置按钮结合form表单区域使用 5.无语义的布局标签 6.字符实体 注册信息综合案例 表单第二节 1. 下拉菜单 标签: select嵌套option,select是下拉菜单整体,option是下拉菜单的每一项。 代码…

C++:CSDN云服务器2.0

&#xff08;水一期&#xff09; 代码&#xff1a; #include <heker.h> #include <Button.h> #include <graphics.h> #include <bits/stdc.h> #include <windows.h> using namespace std; MUSIC bgMusic; HWND hWnd GetConsoleWindow(); But…

独立按键控制LED(基于51单片机)

师从江科大 独立按键 轻触按键&#xff1a; 相当于是一种电子开关&#xff0c;按下开关接通&#xff0c;松开开关断开&#xff0c;实现原理是通过轻触按键内部的金属弹片受力弹动来实现接通好和断开 独立按键原理图&#xff1a; 注&#xff1a;没有按下独立按键是高电平&am…

【TCP】三次握手(建立连接)

前言 在网络通信的世界里&#xff0c;可靠传输协议&#xff08;TCP&#xff09;扮演着重要的角色&#xff0c;它保证了数据包能够按顺序、完整地从发送端传送到接收端。TCP协议中有一个至关重要的机制——三次握手。这一过程确保了两个TCP设备在开始数据传输之前建立起一个稳定…

【Qt/UI美化实战课程】课程首发 (布局/样式表/高级控件/图标字体/图表曲线/仪表盘/精美换肤)

视频先行&#xff1a;详细视频介绍可以看下B站讲解 【QT/UI美化实战课程】课程首发 (布局/样式表/高级控件/图标字体/图表曲线/仪表盘/精美换肤&#xff09; 1. 课程包含哪些干货&#xff1f; 1.1 无边框窗口&#xff08;11讲&#xff09; 实现的无边框窗口&#xff0c;支持以…

2024上海国际跨境电商及户外源头工厂选品展览会

2024上海国际跨境电商及户外源头工厂选品展览会 时间&#xff1a;2024年09月5-7日 地点&#xff1a;上海世博展览馆 详询主办方陆先生 I38&#xff08;前三位&#xff09; I82I&#xff08;中间四位&#xff09; 9I72&#xff08;后面四位&#xff09; 展会介绍&#xff…

PostGIS教程学习二十二:使用触发器追踪历史编辑操作

PostGIS教程学习二十二&#xff1a;使用触发器追踪历史编辑操作 生产环境下数据库的一个常见要求是能够跟踪用户编辑数据的历史&#xff1a;数据在两个日期之间是如何变化的&#xff0c;是谁操作的&#xff0c;以及它们哪些内容变化了&#xff1f;一些GIS系统通过在客户端接口…

如何实现一个百万亿规模的时序数据库,百度智能云 BTS 架构解析和实践分享

本文整理自 2023 年 12 月 16 日&#xff0c;百度智能云数据库总架构师朱洁在《国产数据库共话未来趋势》技术沙龙上的主题分享。 随着互联网和物联网的高速发展&#xff0c;产生了大量的结构化、半结构化数据。在百度集团内部&#xff0c; BTS&#xff08;Baidu Table Storage…