一、K近邻算法K-NN(有监督学习)

一、算法思路

K近邻算法,k-nearest neighbor,即K-NN
通俗来说:给定一个元素,然后以该元素坐标为圆心开始画圆,其中K值是超参数需要人为给定,圆的半径逐渐增大(距离度量采用欧氏距离),直到包含其他K个元素为止,然后看所包含的K个元素都属于哪些类别,根据决策规则(采用少数服从多数原则),看K个元素属于哪些类别多,那么x就归为哪类。

应用场景:已知有两个类别绿色五边形和蓝色六边形,新加入一个橙色元素x,问x可归为哪一类?
在这里插入图片描述

三要素:距离度量、K值、决策规则

①距离度量

空间中,距离越近的元素越容易是同一个类别,因为其相似度较高。
距离度量方法很多,常用的有欧式距离、曼哈顿距离、余弦距离等

Ⅰ、欧氏距离

两点之间距离公式:在这里插入图片描述
当然可以是更高维度的距离,同样道理计算方法都一样,高维度也可以应用。

Ⅱ、曼哈顿距离

两个点在坐标系上的绝对轴距总和:在这里插入图片描述

Ⅲ、余弦距离

向量空间中两个向量夹角的余弦值:在这里插入图片描述

距离度量目的是看未知元素与哪个已存在的类别最近,那么新来的元素就可以归为这类

②K值

K值可以理解为结束条件,是个超参数,需要人为给定
不同的K值最终算法表现出来的效果也不尽相同,甚至可以会差异很大
通常使用交叉验证的方法来确定最优K值

③决策规则

常见的决策规则有:少数服从多数原则、加权平均原则等

Ⅰ、少数服从多数

这个很容易了解,比如K个元素,看哪个出现的类别多,那么新来的元素就是这个类别

Ⅱ、加权平均

这种情况提前是所有的类别均有对应的权值,将K个元素所对应的类别权重相加取平均,看该值离哪个类别权重值最近,就归为这个类别

二、官网API

官网API

class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)

这里的参数还是比较多的,具体的参数使用,可以根据官网给的demo进行学习,多动手尝试;这里就以一些常用的参数进行说明。
导包:from sklearn.neighbors import KNeighborsClassifier

①n_neighbors

该参数就是三要素中的K值,就是结束的条件,找到K个元素之后就停止,然后看K个值中类别最多的那个,就把新来的元素规定为这个类别;默认情况下是5
在这里插入图片描述

使用方式

KNeighborsClassifier(n_neighbors=2)

②weights

权重函数设置选择
uniform’:所有元素的权重都是一样,一视同仁,默认使用
distance’:离的近的元素权重更大
当然也可以自定义权重函数
在这里插入图片描述

使用方式

KNeighborsClassifier(weights={'distance'})
KNeighborsClassifier(weights={'uniform'})

③algorithm

采用什么算法去计算相邻元素
在这里插入图片描述
ball_tree’:采用BallTree算法去求解
kd_tree’:采用KDTree算法去求解
'brute’:暴力BF算法求解
auto’:尝试根据传递给拟合方法的值决定最合适的算法

使用方式

KNeighborsClassifier(algorithm="ball_tree")
KNeighborsClassifier(algorithm="kd_tree")
KNeighborsClassifier(algorithm="brute")
KNeighborsClassifier(algorithm="auto")

其他参数的具体使用流程以及作用可以看官网进行学习

三、代码实现

①导包

这里需要评估、训练、保存和加载模型,以下是一些必要的包,若导入过程报错,pip安装即可

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

②加载数据集

数据集可以自己简单整个,csv格式即可,我这里使用的是6个自变量X和1个因变量Y
在这里插入图片描述

fiber = pd.read_csv("./fiber.csv")
fiber.head(5) #展示下头5条数据信息

在这里插入图片描述

③划分数据集

前六列是自变量X,最后一列是因变量Y

常用的划分数据集函数官网API:train_test_split
在这里插入图片描述
test_size:测试集数据所占比例
train_size:训练集数据所占比例
random_state:随机种子
shuffle:是否将数据进行打乱
因为我这里的数据集共48个,训练集0.75,测试集0.25,即训练集36个,测试集12个

X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)print(X_train.shape) #(36,6)
print(y_train.shape) #(36,)
print(X_test.shape) #(12,6)
print(y_test.shape) #(12,)

④构建KNN模型

参数可以自己去尝试设置调整

knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")

⑤模型训练

就这么简单,一个fit函数就可以实现模型训练

knn.fit(X_train,y_train)

⑥模型评估

把测试集扔进去,得到预测的测试结果

y_pred = knn.predict(X_test)

看看预测结果和实际测试集结果是否一致,一致为1否则为0,取个平均值就是准确率

accuracy = np.mean(y_pred==y_test)
print(accuracy) # 0.8333333333333333

⑦模型测试

拿到一条数据,使用训练好的模型进行评估
这里是六个自变量,我这里随机整个test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
扔到模型里面得到预测结果,prediction = knn.predict(test)
看下预测结果是多少,是否和正确结果相同,print(prediction)

test = np.array([[16,18312.5,6614.5,2842.31,25.23,1147430.19]])
prediction = knn.predict(test)
print(prediction) #[2]

⑧保存模型

knn是模型名称,需要对应一致
后面的参数是保存模型的路径

joblib.dump(knn, './knn.model')#保存模型

⑨加载和使用模型

knn_yy = joblib.load('./knn.model')test = np.array([[11,99498,5369,9045.27,28.47,3827588.56]])#随便找的一条数据
prediction = knn_yy.predict(test)#带入数据,预测一下
print(prediction) #[4]

完整代码

import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import joblib
%matplotlib inline
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_scorefiber = pd.read_csv("./fiber.csv")X = fiber.drop(['Grade'], axis=1)
Y = fiber['Grade']X_train, X_test, y_train, y_test = train_test_split(X,Y,train_size=0.75,test_size=0.25,random_state=42,shuffle=True)knn = KNeighborsClassifier(n_neighbors=4,algorithm="auto")knn.fit(X_train,y_train)y_pred = knn.predict(X_test)accuracy = np.mean(y_pred==y_test)
print(accuracy) # 0.8333333333333333

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/111772.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML中的<canvas>元素

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ canvas元素⭐ 用途⭐ 示例⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们…

uTool快捷指令

send("************"); quickcommand.sleep(200); keyTap("enter");

2023CSP游寄

初赛 DAY -2 才刚考开学测就来初赛。 复赛之后就是月测,这就是初三吗。 初中最后一次 CSP,如果 S 没一等就得摆烂了。希望别因为各种原因爆炸。 中午下午借着刷初赛题的名义摆烂,半道题都没写。 CSP2023RP 初赛 DAY -1 看我发现了什么。…

php高级 TP+Redis实现发布订阅和消息推送案例实战

Redis 的发布-订阅模型是一种消息通信模式,它允许客户端之间通过特定的频道进行通信。在这种模型中,有些客户端负责发布消息(发布者),而其他客户端则订阅它们感兴趣的频道并接收这些消息(订阅者&#xff09…

路由器ip地址设置

当你使用路由器时,你可以按照以下步骤设置路由器的IP地址。这样可以确保你的网络连接正常并允许其他设备连接到你的路由器。 **步骤一:登录路由器管理界面** 首先,你需要登录到路由器的管理界面。打开你的浏览器,并输入路由器的…

kudu 1.4.0 离线安装

1.准备rpm安装包 kudu-1.4.0: kudu的基础安装包 kudu-client0-1.4.0: kudu的c++客户端共享库 kudu-client-devel-1.4.0: kudu的c++客户端共享库sdk kudu-master-1.4.0: kudu master kudu-tserver-1.4.0: kudu tserver

zabbix学习1--zabbix6.x单机

文章目录 1. 环境2. MYSQL8.02.1 单节点2.2 配置主从 3. 依赖组件4. zabbix-server5. agent5.1 yum5.2 编译 附录my.cnfJDK默认端口号 1. 环境 进入官网查看所需部署环境配置以及应用版本要求https://www.zabbix.com/documentation/current/zh/manual/installation/requiremen…

setInterval倒计时切换页面后不准

背景 最近在做一个倒计时时,发现当切换浏览器tab后,再切回倒计时页面,倒计时的数据不准,比真正的剩余时间多,短时间还好,时间长了,计时器的误差会很大。 原因 倒计时是用setInterval每1000毫…

欧拉筛和埃氏筛(超详细分析筛选过程,差异,证明,时间比较)

分析之前我们先看一下埃氏筛和欧拉筛的代码: 1.Eraosthenes(埃拉托斯尼筛法)埃氏筛法 时间复杂度O(nlogn) const int maxn2e66; bool isprime[maxn]; void seive(){memset(isprime,true,sizeof(isprime));isprime[0…

目标检测中生成锚框函数详解

%matplotlib inline import torch from d2l import torch as d2l torch.set_printoptions(2) # 让pytorch打印张量时,只打印到小数点后两位将设一张图片,宽和高为2,2 X torch.rand(size(1,3,2,2)) Y generate_anchors(X,sizes[0.75,0.5,0.25],ratios[…

webpack配置alias后eslint和ts无法识别

背景 我们在 webpack 配置 alias 后,发现项目中引入的时候,还是会报错,如下: 可以看到,有一个是 ts报错,还有一个是 eslint 报错。 解决 ts 报错 tsconfig.json {"compilerOptions": {...&q…

基于Xml方式的Bean的配置-Bean的作用范围scope配置

SpringBean的配置详解 Bean的配置范围 默认情况下(基本的Spring环境),单纯Spring环境Bean的作用范围有两个:Singleton和prototypesingleton:单例,默认值,Spring容器创建的时候,就会进行Bean的实…