第2篇 机器学习基础 —(3)机器学习库之Scikit-Learn

前言:Hello大家好,我是小哥谈。Scikit-Learn(简称Sklearn)是Python 的第三方模块,它是机器学习领域当中知名的Python 模块之一,它对常用的机器学习算法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)和聚类(Clustering)四大机器学习算法。本节课就简单介绍下Scikit-Learn的基本概念、应用场景、安装方法和应用案例!~🌈  

前期回顾:

             第2篇 机器学习基础 —(1)机器学习概念和方式

             第2篇 机器学习基础 —(2)分类和回归

            目录

🚀1.基本概念

🚀2.安装方法

🚀3.应用场景

🚀4.最小二乘法回归

🚀5.支持向量机

🚀1.基本概念

Scikit-Learn是一个Python机器学习库,它提供了各种各样的机器学习算法和工具,包括分类回归聚类降维等等。它是一个非常流行的机器学习库,因为它易于使用、功能强大、文档齐全,并且有一个庞大的社区支持。Scikit-Learn还提供了许多实用工具,如数据预处理、特征提取和模型评估等,这些工具可以帮助你更好地理解和分析数据。

Scikit-Learn的发展始于2007年,由David Cournapeau在Google Summer of Code项目中启动。项目后续得到了许多开发者的贡献,包括INRIA(法国国家信息与自动化研究所),Waikato大学和其他机构。Scikit-Learn的发展历程中,不断地增加新的功能和算法,提高了性能和稳定性,成为了机器学习领域中最受欢迎的库之一。 

Scikit-Learn 具有以下特点:

  • 简单高效的数据挖掘和数据分析工具。
  • 让每个人能够在复杂环境中重复使用。
  • Scikit-Learn是Scipy模块的扩展,是建立在NumPy 和Matplotlib模块的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。
  • 开源,采用BSD 协议,可用于商业。

Scikit-Learn的版本迭代情况:

  1. Scikit-Learn 0.1 - 2007年发布的第一个版本。
  2. Scikit-Learn 0.2 - 2008年发布,增加了更多的分类和聚类算法。
  3. Scikit-Learn 0.3 - 2009年发布,增加了更多的特征选择和数据预处理工具。
  4. Scikit-Learn 0.4 - 2010年发布,增加了更多的回归算法和交叉验证工具。
  5. Scikit-Learn 0.5 - 2011年发布,增加了更多的聚类算法和特征选择工具。
  6. Scikit-Learn 0.6 - 2012年发布,增加了更多的分类算法和特征选择工具。
  7. Scikit-Learn 0.7 - 2013年发布,增加了更多的回归算法和特征选择工具。
  8. Scikit-Learn 0.8 - 2014年发布,增加了更多的聚类算法和特征选择工具。
  9. Scikit-Learn 0.9 - 2015年发布,增加了更多的分类算法和特征选择工具。
  10. Scikit-Learn 0.10 - 2016年发布,增加了更多的回归算法和特征选择工具。
  11. Scikit-Learn 0.11 - 2017年发布,增加了更多的聚类算法和特征选择工具。
  12. Scikit-Learn 0.12 - 2018年发布,增加了更多的分类算法和特征选择工具。
  13. Scikit-Learn 0.13 - 2019年发布,增加了更多的回归算法和特征选择工具。
  14. Scikit-Learn 0.22 - 2019年发布,增加了更多的特征选择和数据预处理工具,以及更好的模型选择和评估工具。
  15. Scikit-Learn 0.23 - 2020年发布,增加了更多的特征选择和数据预处理工具,以及更好的模型选择和评估工具,还增加了对Python 3.8的支持。

🚀2.安装方法

Scikit-Learn 的安装要求如下:

  • Python版本:高于2.7。
  • NumPy 版本:高于1.8.2。
  • SciPy:高于0.13.3。

如果已经安装了NumPy 和Scipy,那么安装Scikit-Learn 最简单的方法是使用pip 工具安装,命令如下:

pip install -U scikit-learn

或者使用conda,命令如下:

conda install scikit-learn

还可以在PyCharm开发环境中安装。运行PyCharm,选择File → Settings 菜单项,打开“Settings”窗口,选择“Project Interpreter”选项,然后单击添加(+)按钮,打开“Available Packages”窗口,在搜索文本框中输入需要添加的模块名称,例如“scikit-learn”,然后在列表中选择需要安装的模块。

注意:尽量选择安装0.21.2 版本,否则运行程序时可能会出现因为模块版本不适合而导致程序出现错误提示“找不到指定的模块”。


🚀3.应用场景

Scikit-Learn是一个广泛使用的Python机器学习库,它提供了许多用于分类、回归、聚类、数据降维、模型选择和数据预处理等任务的工具和算法。因此,Scikit-Learn的应用场景非常广泛,包括但不限于以下几个方面:

  1. 金融领域:用于信用评估、欺诈检测、股票预测等。
  2. 医疗领域:用于疾病诊断、药物研发、基因分析等。
  3. 自然语言处理:用于文本分类、情感分析、机器翻译等。
  4. 图像处理:用于图像分类、目标检测、人脸识别等。
  5. 工业制造:用于质量控制、故障诊断、预测维护等。
  6. 推荐系统:用于个性化推荐、广告投放等。

等等......🍉 🍓 🍑 🍈 🍌 🍐

根据以上所述,对于Scikit-Learn的应用,主要基于以下六个方面:

(1)分类

解释:标识对象所属的类别

举例:垃圾邮件检测,图像识别等

(2)回归

解释:预测与对象关联的连续值属性

举例:药物反应,股票价格等

(3)聚类

解释:自动将相似对象归为一组

举例:客户细分,分组实验成果等

(4)降维

解释:减少要考虑的随机变量的数量

举例:可视化,提高效率等

(5)模型选择

解释:比较,验证和选择参数和模型。

举例:通过参数调整改进精度

(6)预处理

解释:特征提取和归一化

举例:转换输入数据,例如文本,以供机器学习算法使用等。


🚀4.最小二乘法回归

首先了解一下线性回归分析。线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间,相互依赖的定量关系的一种统计分析与预测的方法,应用十分广泛。在线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果线性回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。在Python中,无需理会烦琐的线性回归求解数学过程,直接使用Scikit-Learn中的linear_model模块就可以实现线性回归分析。linear_model 模块中提供了很多线性模型,包括最小二乘法回归、岭回归、Lasso、贝叶斯回归等。本节课主要介绍最小二乘法回归。

首先导入linear_model 模块,程序代码如下:

from sklearn import linear_model

导入linear_model 模块后,在程序中就可以使用相关函数实现线性回归分析。

线性回归是数据挖掘中的基础算法之一,线性回归的思想其实就是解一组方程,得到回归系数。不过在出现误差项之后,方程的解法就存在了改变,一般使用最小二乘法进行计算,所谓“二乘”就是平方的意思,最小二乘法也称为最小平方和,其目的是通过最小化误差的平方和,使得预测值与真值无限接近。linear_model 模块中的LinearRegression 函数用于实现最小二乘法回归。LinearRegression 函数拟合一个带有回归系数的线性模型,使得真实数据和预测数据(估计值)之间的残差平方和最小,与真实数据无限接近。

LinearRegression 函数的语法如下:

linear_model.LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=None)

参数说明:

fit_intercept:布尔型值,是否需要计算截距,默认值为True。

normalize:布尔型值,是否需要标准化,默认值为False,和参数fit_intercept有关。当fit_intercept参数值为False时,将忽略该参数;当fit_intercept 参数值为True 时,则回归前,对回归量X进行归一化处理,取均值相减,再除以L2 范数(L2 范数是指向量各元素的平方和,然后开方)。

copy_X :布尔型值,选择是否复制X 数据,默认值True,如果为False,则覆盖X 数据。

n_jobs:整型,代表CPU 工作效率的核数,默认值1,-1 表示跟CPU 的核数一致。

主要属性:

coef_:数组或形状,表示线性回归分析的回归系数。

intercept_:数组,表示截距。

主要方法:

fit(X,y,sample_weight=None):拟合线性模型。

predict(X):使用线性模型返回预测数据。

score(X,y,sample_weight=None):返回预测的确定系数R^2。LinearRegression 函数调用fit 方法来拟合数组X、y,并且将线性模型的回归系数存储在其成员变量的coef_ 属性中。

案例:快速预测房价

实现智能预测房价,假设某地的房屋面积和价格关系如下表所示,下面使用LinearRegression 函数预测面积为170 平方米的房屋的单价。

面积价格
567800
1049000
1569200
20010000
25011000
30012000

代码:

from sklearn import linear_model
import numpy as npx=np.array([[1,56],[2,104],[3,156],[4,200],[5,250],[6,300]])
y=np.array([7800,9000,9200,10000,11000,12000])
clf = linear_model.LinearRegression()
clf.fit (x,y)                    #拟合线性模型
k=clf.coef_                      #回归系数
b=clf.intercept_                 #截距
x0=np.array([[7,170]])#通过给定的x0预测y0,y0=截距+X值*回归系数
y0=clf.predict(x0)                #预测值
print('回归系数:',k)
print('截距:',b)
print('预测值:',y0)

运行程序,输出结果:

回归系数: [1853.37423313  -21.7791411 ]
截距: 7215.950920245397
预测值: [16487.11656442]

🚀5.支持向量机

支持向量机(SVMs)可用于监督学习算法,主要包括分类、回归和异常检测。支持向量分类的方法可以被扩展用作解决回归问题,这个方法被称作支持向量回归。本节介绍支持向量回归函数――LinearSVR函数。LinearSVR 函数是一个支持向量回归的函数,支持向量回归,不仅适用于线性模型,还可以用于对数据和特征之间的非线性关系。避免多重共线性问题,从而提高泛化性能,解决高维问题,语法如下:

sklearn.svm.LinearSVR(epsilon = 0.0,tol = 0.0001,C = 1.0,loss ='epsilon_insensitive',fit_intercept = True,intercept_scaling = 1.0,dual = True,verbose = 0,random_state =None,max_iter = 1000 )

参数说明:

epsilon:float类型值,默认值为0.1。

tol:float类型值,终止迭代的标准值,默认值为0.0001。

C:float类型值,罚项参数,该参数越大,使用的正则化越少,默认值为1.0。

loss :string类型值,损失函数,该参数有两种选项:

epsilon_insensitive:损失函数为L (标准SVR)。

squared_epsilon_insensitive:损失函数为L ,默认值为epsilon_insensitive。

fit_intercept:boolean 类型值,是否计算此模型的截距。如果设置为False,则不会在计算中使用截距(即数据预计已经居中)。默认值为True。

intercept_scaling:float 类型值,当fit_intercept 为True 时,实例向量x 变为[x,self.intercept_scaling]。此时相当于添加了一个特征,该特征将对所有实例都显示为常数值。此时截距变成intercept_scaling特征的权重w 。此时该特征值也参与了罚项的计算。

dual:boolean 类型值,选择算法以解决对偶或原始优化问题。设置为True 时将解决对偶问题,设置为False 时解决原始问题,默认值为True。

verbose:int类型值,是否开启verbose输出,默认值为True。

random_state:int 类型值,随机数生成器的种子,用于在混洗数据时使用。如果是整数,则是随机数生成器使用的种子;如果是RandomState 实例,则是随机数生成器。

max_iter:int类型值,要运行的最大迭代次数。默认值为1000。

coef_:赋予特征的权重,返回array数据类型。

intercept_0:决策函数中的常量,返回array数据类型。

案例:预测“波士顿”的房价

通过Scikit-Learn 自带的数据集“波士顿房价”,实现房价预测,程序代码如下:

代码:

from sklearn.svm import LinearSVR                           #导入线性回归类
from sklearn.datasets import load_boston                     #导入加载波士顿的数据集
from pandas import DataFrame                               #导入DataFrameboston = load_boston()                                     #创建加载波士顿的数据对象#将波士顿的房价数据创建为DataFrame对象
df = DataFrame(boston.data, columns=boston.feature_names)
df.insert(0,'target',boston.target)                          #将价格添加至DataFrame对象中
data_mean = df.mean()                                     #获取平均值
data_std = df.std()                                       #获取标准偏差
data_train = (df - data_mean) / data_std                     #数据标准化
x_train = data_train[boston.feature_names].values            #特征数据
y_train = data_train['target'].values                        #目标数据
linearsvr = LinearSVR(C=0.1)                               #创建LinearSVR对象
linearsvr.fit(x_train, y_train)                             #训练模型#预测,并还原结果
x = ((df[boston.feature_names] - data_mean[boston.feature_names]) / data_std[boston.feature_names]).values#添加预测房价的信息列
df[u'y_pred'] = linearsvr.predict(x) * data_std['target'] + data_mean['target']
print(df[['target', 'y_pred']].head())                        #输出真实价格与预测价格

运行程序,输出结果:

 target     y_pred
0    24.0  28.412710
1    21.6  23.864795
2    34.7  29.944414
3    33.4  28.322685
4    36.2  28.136243

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/155702.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java日志组件介绍之一

一、前言 前段时间爆出Log4j安全漏洞的事情,XX云因未及时报告漏洞被工信部暂停网络安全威胁和漏洞信息共享平台合作单位(https://www.cstis.cn/),话说Java的日志组件真是多而且也比较乱,后续几篇文章就聊一下各日志组…

mybatisplus 常用注解

文章目录 1.TableName1.1 引出问题1.2 解决问题a、使用注解解决问题b、使用全局配置解决问题 2.TableId2.1 引出问题2.2 解决问题2.3 TableId的value属性2.4 TableId的type属性 3.TbaleField3.1 情况一3.2 情况二 4.TableLogic4.1 逻辑删除4.2 实现逻辑删除 MyBatis-Plus提供的…

mysql出现Deadlock死锁排查

参考: https://www.yisu.com/zixun/664543.html 查看mysql死锁日志 show engine innodb status找到信息中LATEST DETECTED DEADLOCK这一行,可以看到mysql的死锁信息详情 ------------------------ LATEST DETECTED DEADLOCK ------------------------ 2023-10-31…

怎么搭建一个蛋糕店小程序?

在当今的移动互联网时代,很多企业纷纷选择了小程序作为推广和销售的利器。对于蛋糕店来说,创建一个小程序可以提高品牌知名度,增加销售渠道。下面,我们以【乔拓云】第三方平台为例,来介绍一个完整蛋糕店小程序的制作流…

[云原生1.] Docker--harbor私有仓库部署与管理

文章目录 1. Harbor概述1.1 什么是Harbor1.2 Harbor的组织构成1.2.1 Proxy1.2.2 Registry1.2.3 Core services1.2.4 Database(harbor-db)1.2.5 Job services1.2.6 Log collector(harbor-log) 1.3 Harbor的特点 2. 部署Harbor服务2…

批量去除pdf每一页相同未知的同样的内容

例如我想去除每一页右下角的www.alevelcollege.com ①打开acrobat pro ②编辑文件和图像 ③ctrlF输入字符串www.alevelcollege.com替换为空 ④鼠标点击替换 ⑤回车键按下不放,会自动翻页,直到翻页到最后一页。

AUTOSAR CAN协议栈架构总览介绍

Classic AUTOSAR层级架构简介 如下图是Classic AUTOSAR层级架构图,每个层主要功能如下 微控制器抽象层:使上层软件和微处理器型号无关,包含MCU中内部外设的驱动以及MCU内存映射的外部设备的驱动ECU抽象层:使上层软件和ECU硬件设计无关,包含ECU板上外部设备的驱动以及内部…

win32 读写UTF-8格式的文件的方法

1,写入数据 最开始是在写入数据前先写入三个字节 BYTE btHead[] { 0xEF,0xBB,0xBF }; ::WriteFile(hFile, btHead, 3, &dwWrite, 0); ::WriteFile(hFile, str, lstrlen(str)*sizeof(TCHAR), &dwWrite, 0);这样写入后文件样式为: 格式是UTF-8…

网络协议--TCP连接的建立与终止

18.1 引言 TCP是一个面向连接的协议。无论哪一方向另一方发送数据之前,都必须先在双方之间建立一条连接。本章将详细讨论一个TCP连接是如何建立的以及通信结束后是如何终止的。 这种两端间连接的建立与无连接协议如UDP不同。我们在第11章看到一端使用UDP向另一端发…

jsp 网上订餐Myeclipse开发mysql数据库web结构java编程计算机网页项目

选题目的 本设计课题为网上订餐系统设计与实现,提供无纸化点餐、支付,实现点餐快捷,方便管理。餐厅电子化是目前的潮流和趋势,大多数企业都将公司内部运营流程电子化。网上订餐管理系统应运而生,能够有效提高公司的管…

SpringBoot集成与应用Neo4j

文章目录 前言集成使用定义实体配置定义Repository查询方法方式一:Query方式二:Cypher语法构建器方式三:Example条件构建器方式四:DSL语法 自定义方法自定义接口继承自定义接口实现自定义接口neo4jTemplateNeo4jClient 自定义抽象…

要在VMware(虚拟机)上获取相机连接状态并显示在主界面上,您可以使用以下步骤:

在VM上安装相机驱动程序:确保VM中已安装对应的相机驱动程序,以便能够连接和使用相机。 检查相机连接状态:在VM中,打开设备管理器(Device Manager)并检查相机是否显示为已连接状态。如果显示为已连接&#…