深入浅出谈Python机器学习的概念及教学

 机器学习学习起来并不复杂,下面我用简单的语言说一说:

1.机器学习的分类

常见的机器学习包括有监督和无监督的学习,有监督学习就是用一堆特征变量(也可以理解为解释变量、因子、自变量)去预测响应变量(也可以理解为被解释变量、因变量),无监督学习主要是降维和聚类。

2.有监督机器学习的原理

针对有监督学习,从原理或数学推导的角度,一言以蔽之,就是首先构建一个含有参数的模型,然后在有目标、有约束条件的前提下求解最优参数问题。分类问题的目标一般为分类的准确度,回归问题的目标一般为残差平方和最小。各种机器学习算法求解的就是达成最优目标时的参数,或者说在参数等于多少多少时,恰当能够达成最优化的目标。然后基于参数构建的模型就是最终的机器学习算法模型。

3.无监督机器学习的原理

无监督学习主要包括因子分析和聚类分析,因子分析的目的是降维,即通过变换把很多很多变量用少数几个变量来代替,从而在不过多损失原始变量信息的前提下有效减少模型复杂度。聚类分析的目的就是基于各个变量构筑一个空间,将空间内距离相近的样本观测值划分为1类。

4.机器学习实务操作实现

机器学习在实务中都是通过Python编程语言(R语言也常用)或SPSS等统计分析软件来实现的,而不需要自己去计算。用Python开展机器学习,基本上就是学会调用相应的模块(使用import语句或from…import语句导入模块),然后合理设置相应参数,会对运行结果进行解读,就可以了。用SPSS等统计分析软件开展机器学习,基本上就是会操作相关的菜单,在对话框中进行合理设置,会对运行结果进行解读,也可以了。

5.用Python编程语言开展机器学习的优劣势

用Python编程语言的好处是:1.非常灵活,可以实现很多很多机器学习算法(理论上只要有可调用的模块就可以);2.免费开源,用户众多,不用花钱,遇到问题可以在网上一搜,往往就可以找到答案;3.学习的延展性好,Python除了可以用来进行机器学习,还可以进行爬虫、开发游戏、实现办公自动化等,实现一学多用。缺点在于:因为没有专业公司运营,所以在安装、调用等各个环节,很容易出错,而且不同的模块的版本之间很多时候出现升级不兼容等问题,需要一定的程序调试能力。

6.用SPSS开展机器学习的优劣势

用SPSS统计分析软件也可以开展机器学习,其中包括多层感知器、径向基函数、神经网络、决策树、判别分析、线性回归、logistic回归、聚类分析、ROC曲线等很多种方法。其优势在于:1.操作更为简单,只需要点点鼠标操作菜单,在对话框中设定选项,输入参数就可以;2.由于是由SPSS公司专业运营所以基本上不会有bug,不需要任何编程和程序调试能力;3.SPSS不仅可以用于机器学习,还可以用来进行统计分析,不仅可以搞应用还可以搞学术。缺点在于:1.方法不全,没有随机森林、支持向量机、提升法等较为常用的机器学习算法;2.不够灵活,无法根据实际研究需要像编程语言那样做到“量身定制”;3.正版软件需要收费,对于很多用户来说比较昂贵。

7.学习注意事项

根据我多年的教学经验,大家无论是学数据分析中的机器学习还是统计学计量经济学,都建议结合着具体的软件或编程语言来学,对于不想走纯科研路线或者想成为理论大牛的大多数朋友来说,不建议过多研究数学公式,而是应一边学习知识原理,一边上手操作,不然就会在复杂的数学公式推导面前耗尽了所有的学习热情。

8.Python数据分析或机器学习学习书籍推荐

如果是用Python编程语言,针对数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。

(1)《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。《Python机器学习原理与算法实现》一书创作完成后,在正式出版之前,已经开发成一套系统课程,分9次授课,在某全国性股份制商业银行内部开展了培训,490人根据行内组织统一学习,授课完成后放在知鸟平台供回放学习,9次课程累计回放量近3万次,得到参训学员的一致好评,广泛应用于各位学员的工作实践。(所以,这是一本避雷避坑、已经被亲测可行的网红书,只要用心学,都没问题哦)

(2) 《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)

《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。国务院发展研究中心创新发展研究部第二研究室主任杨超 ,山东大学经济学院金融系党支部书记、副主任、副教授、硕士生导师张博,山东管理学院信息工程学院院长 袁锋 教授、硕士生导师,山东大学经济学院 刘一鸣 副研究员、硕士生导师,得厚投资合伙人 张伟民等一众大牛联袂推荐。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供“从拿到数据开始,一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。买这一本书相当于一下子得到了5本书(Python基础、数据清洗、特征工程、数据可视化、数据挖掘与建模),入门超级简单,不需要编程基础,也不需要过多数学推导,非常适用于零基础学生。

两本书随书赠送的学习资料也很多,包括全部的源代码、PPT、思维导图,还有10小时以上的讲解视频,每一章后面还有练习题及参考答案,还有学习群,相对于只看网络上的视频,一方面更加系统、高效,另一方面照着书一步步操作学起来也事半功倍。全网热销中,当当、京东等平台搜索“Python机器学习 杨维忠”“Python数据科学 杨维忠”即可。

9.SPSS的机器学习、商用建模与综合案例应用书籍推荐

关于SPSS的机器学习、商用建模与综合案例应用,推荐学习杨维忠、张甜编著,清华大学出版社出版的《SPSS统计分析商用建模与综合案例精解》。

全书共12章,第1章为SPSS操作快速入门,旨在告诉读者SPSS软件启动与关闭,数据编辑录入、数据读取、数据排序、缺失值处理、数据查找、数据合并等对数据的基础操作,教会读者如何使用SPSS处理数据。第2章为SPSS建模技术要点介绍,旨在告诉读者SPSS中的各类建模技术方法,建模中的注意事项,建模中的常见误区、需要遵循的价值导向,以及完整的研究方案设计要点等。第3章为SPSS在电子商务平台商户营销中的应用,讲解如何使用SPSS的直销模块来进行建模,以便应用到电子商务平台商户营销中。第4章为商业银行授信客户信用风险评估,讲解如何使用SPSS软件的神经网络-多层感知器,应用到商业银行授信客户信用风险评估领域。第5章为在线旅游供应商客户分类建模技术模块,讲解如何使用SPSS软件的神经网络-径向基函数,以便应用到在线旅游供应商客户分类中。第6章为小额快贷大数据审批建模技术模块,讲解如何使用SPSS软件的决策树模块,应用到小额快贷大数据审批中。第7章为汽车消费市场调研建模技术,讲解如何使用SPSS软件的联合分析模块和交叉表分析模块,应用到汽车消费市场调研中。第8章为住宅小区订奶量预测分析建模技术,讲解如何使用SPSS软件时间序列预测模块进行建模,应用到住宅小区订奶量预测分析中。第9章为手机游戏玩家体验评价影响因素分析,讲解如何使用SPSS软件的线性回归分析模块和方差分析模块,研究手机游戏玩家体验评价影响因素。第10章为家政行业客户满意度调研建模技术,讲解如何使用SPSS软件可靠性分析、描述性分析相关性分析、有序回归分析等模块开展家政行业客户满意度调研工作。第11章为软件和信息技术服务业估值建模技术,讲解如何使用SPSS软件描述性分析、相关性分析、线性回归分析研究软件和信息技术服务业上市公司估值。第12章为美容连锁企业按门店特征分类分析建模技术,讲解如何使用SPSS软件因子分析模块和聚类分析模块对美容连锁企业按门店特征分类。

综上所述,本书最大的特色和优势在于将SPSS建模技术和商业领域应用有机结合,从使用的SPSS建模技术来看,既包括传统经典的线性回归分析、相关分析、因子分析、聚类分析、描述性分析、方差分析、交叉表分析等一般统计建模技术,也包括神经网络多层感知器、径向基函数、决策树等热门大数据处理建模技术,也包括专业用于市场营销的联合分析、直销模块分析等专业建模技术。从研究应用的领域来看,全部为当下流行热门的商业运营领域,涉及的行业包括商业银行、美容连锁、汽车制造销售、电子商务、在线旅游、网络信贷、手机游戏、家政行业、奶制品行业、软件和信息技术服务业等,涉及的商业运营环节包括市场调研、市场营销、客户满意度调查、连锁门店分类管理、奶制品物流配送、客户关系分级分类维护、业务审批、消费者综合体验、上市公司估值等。

创作不易,恳请大家多多点赞支持,也欢迎大家多多关注我,让我们一起学习Python/SPSS/Stata等相关知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/336553.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

强化学习10——免模型控制Q-learning算法

Q-learning算法 主要思路 由于 V π ( s ) ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a) Vπ​(s)∑a∈A​π(a∣s)Qπ​(s,a) ,当我们直接预测动作价值函数,在决策中选择Q值最大即动作价值最大的动作&…

RT-Thread基于AT32单片机的CAN应用

1 硬件电路 2 RT-Thread驱动配置 RT-Studio中没有CAN相关的图形配置,需要手动修改board.h。在board.h的末尾,增加相关的BSP配置。 #define RT_CAN_USING_HDR #define BSP_USING_CAN13 IO配置 at32_msp.c中的IO配置是PB9和PB10,掌上实验室V…

JIRA新BUG单浏览器通知

以下代码请放在油猴内使用: // UserScript // name JIRA未处理任务通知 // namespace https://blog.csdn.net/weixin_43515759 // version 1.0 // description Polls an API endpoint and sends a notification if conditions are met // author …

ChatGPT付费创作系统V2.5.5独立版+前端

ChatGPT付费创作系统V2.5.5版本优化了很多细节,功能增加增加长篇写作功能。该版本为编译版无开源,本版本特别处理了后台弹窗、暗链网址。特别优化了数据库。升级过程中未发现任何BUG,全新安装或者升级安装均未出现400或者500错误,…

高级JavaScript中最有趣的原型、原型链?

封装、继承、多态 基于类 class,JavaScript没有类;JavaScript可以实现面向对象语言特征:封装、继承、多态 封装:通俗的来说就是封装函数,通过私有化的变量和私有化的方法,不让外部访问到 继承&#xff1…

【模拟IC学习笔记】 PSS和Pnoise仿真

目录 PSS Engine Beat frequency Number of harmonics Accuracy Defaults Run tranisent?的3种设置 Pnoise type noise Timeaverage sampled(jitter) Edge Crossing Edge Delay Sampled Phase sample Ratio 离散时间网络(开关电容电路)的噪声仿真方法 PSS PSS…

【web】springboot3 生成本地文件 url

文章目录 流程效果静态资源访问ServiceServiceImplController 流程 avatar_dir:请求图片在服务端的存放路径user.dir:项目根目录 效果 静态资源访问 application.yml 设置静态文件存储路径custom:upload:avatar_dir: ${user.dir}/avatar_dir/avatar_d…

Kubernetes(K8S)云服务器实操TKE

一、 Kubernetes(K8S)简介 Kubernetes源于希腊语,意为舵手,因为首尾字母中间正好有8个字母,简称为K8S。Kubernetes是当今最流行的开源容器管理平台,是 Google 发起并维护的基于 Docker 的开源容器集群管理系统。它是大名鼎鼎的Google Borg的开源版本。 K8s构建在 Docker …

【C++】十大排序算法

文章目录 十大排序算法插入排序O(n^2^)冒泡排序O(n^2^)选择排序O(n^2^)希尔排序——缩小增量排序O(nlogn)快速排序O(nlogn)堆排序O(nlogn)归并排序(nlogn)计数排序O(nk)基数排序O(n*k)桶排序O(nk) 十大排序算法 排序算法的稳定性:在具有多个相同关键字的记录中&…

C# WPF 数据绑定

需求 后台变量发生改变,前端对应的相关属性值也发生改变 实现 接口 INotifyPropertyChanged 用于通知客户端(通常绑定客户端)属性值已更改。 示例 示例一 官方示例代码如下 using System; using System.Collections.Generic; using Sy…

社交距离 - 华为OD统一考试

OD统一考试(C卷) 分值: 200分 题解: Java / Python / C++ 题目描述 疫情期间,需要大家保证一定的社交距离,公司组织开交流会议,座位有一排共N个座位,编号分别为[0…N-1],要求员工一个接着一个进入会议室,并且可以在任何时候离开会议室。 满足:每当一个员工进入时,…

鱼哥赠书活动第⑥期:《内网渗透实战攻略》看完这本书教你玩转内网渗透测试成为实战高手!!!!

鱼哥赠书活动第⑥期:《内网渗透实战攻略》 如何阅读本书:本书章节介绍:本书大致目录:适合阅读对象:赠书抽奖规则:往期赠书福利: 当今,网络系统面临着越来越严峻的安全挑战。在众多的安全挑战中&…