第2章 k-近邻算法

文章目录

  • 第2章 k-近邻算法
    • 2.1k-近邻算法概述
      • 2.1.1准备:使用Python导入数据
      • 2.1.2实施kNN分类算法
    • 2.2示例:使用k近邻算法改进约会网站的
      • 2.2.2分析数据:使用Matplotlib创建散点图
      • 2.2.3准备数据:归一化数值
      • 2.2.4测试算法

第2章 k-近邻算法

2.1k-近邻算法概述

它的⼯作原理是:
存在⼀个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每⼀数据与所属分类的对应关系。输⼊没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征**最相似数据(最近邻)**的分类标签

  • 优点:精度⾼、对异常值不敏感、⽆数据输⼊假定。
  • 缺点:计算复杂度⾼、空间复杂度⾼。 适⽤数据范围:数值型和标称型。

2.1.1准备:使用Python导入数据

import numpy as np
def createDataSet():group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])labels = ['A', 'A', 'B', 'B']return group, labels
group, labels=createDataSet()

2.1.2实施kNN分类算法

对未知类别属性的数据集中的每个点依次执行以下操作:

  1. 计算已知类别数据集中的点与当前点之间的距离;
  2. 按照距离递增次序排序;
  3. 选取与当前点距离最⼩的k个点;
  4. 确定前k个点所在类别的出现频率;
  5. 返回前k个点出现频率最⾼的类别作为当前点的预测分类。
from collections import Counter
def classify0(inX, dataSet, labels, k):size = dataSet.shape[0]dif_mat = np.tile(inX, (size, 1))-dataSetsquare_mat = dif_mat**2square_distance = square_mat.sum(axis=1)indexs = square_distance.argsort()lable_count = Counter([labels[index] for index in indexs[:k]])sort_count = sorted(lable_count.items(), key=lambda tp: -tp[1])return sort_count[0][0]print(classify0([0, 0], group, labels, 3))
B

2.2示例:使用k近邻算法改进约会网站的

分类标签:

  • 不喜欢的⼈didntLike
  • 魅力⼀般的⼈smallDoses
  • 极具魅力的⼈largeDoses

数据存放在文本文件datingTestSet.txt中,每个样本数据占据⼀行,总共有1000行。样本主要包含以下3种特征:

  • 每年获得的飞行常客⾥程数Number of frequent flyers per year
  • 玩视频游戏所耗时间百分⽐Percentage of Time Spent Playing Video Games
  • 每周消费的冰琪淋公升数Liters of Ice Cream Consumed Per Week
import numpy as npdef file2matrix(filename):fr = open(filename)arrayOlines = fr.readlines()numberOfLines = len(arrayOlines)returnMat = np.zeros((numberOfLines, 3))classLabelVector = []index = 0for index in range(numberOfLines):line = arrayOlines[index].strip()listFromLine = line.split('\t')returnMat[index, :] = listFromLine[0:3] #存在类型转换classLabelVector.append(listFromLine[-1])return returnMat, classLabelVectordatingDataMat, datingLabels = file2matrix('datingTestSet.txt')
print(type(datingDataMat[0][0]))
print(datingDataMat)
print(datingLabels[:7])
<class 'numpy.float64'>
[[4.0920000e+04 8.3269760e+00 9.5395200e-01][1.4488000e+04 7.1534690e+00 1.6739040e+00][2.6052000e+04 1.4418710e+00 8.0512400e-01]...[2.6575000e+04 1.0650102e+01 8.6662700e-01][4.8111000e+04 9.1345280e+00 7.2804500e-01][4.3757000e+04 7.8826010e+00 1.3324460e+00]]
['largeDoses', 'smallDoses', 'didntLike', 'didntLike', 'didntLike', 'didntLike', 'largeDoses']

2.2.2分析数据:使用Matplotlib创建散点图

import matplotlib
import matplotlib.pyplot as plt
fig = plt.figure()
plt.figure(figsize=(20, 20))
ax = fig.add_subplot(111,projection='3d')
colors={'largeDoses':'r', 'smallDoses':'y', 'didntLike':'g'}
clr=[colors[x] for x in datingLabels]
ax.scatter(datingDataMat[:,0],datingDataMat[:,1], datingDataMat[:,2],color=clr)
ax.set_xlabel('Flight Mileage')
ax.set_ylabel('Games Time ')
ax.set_zlabel('Liters of Ice Cream')plt.show()

在这里插入图片描述

x、y、z坐标分别是每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰琪淋公升数
红、黄、绿分别是不喜欢的人didntLike、魅力⼀般的人smallDoses、极具魅力的人largeDoses
上图可看出,颜色相同的点大多各自聚集在一起,可以使用k近邻

2.2.3准备数据:归一化数值

距离: d = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 + ( z 1 − z 2 ) 2 d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2+(z_1-z_2)^2} d=(x1x2)2+(y1y2)2+(z1z2)2
但是由于参数的大小不同,并不能直接使用,如里程40920变为41000实际上没有百分比1%变为3%变化得大,所以需要归一化处理(转为0到1): n e w V a l u e = o l d V a l u e − m i n m a x − m i n \mathrm{newValue}=\cfrac{\mathrm{oldValue}-\mathrm{min}}{\mathrm{max}-\mathrm{min}} newValue=maxminoldValuemin

from sklearn.preprocessing import MinMaxScaler
print(datingDataMat[:3,:3])
transfer=MinMaxScaler(feature_range=(0, 1))
datingDataMat=transfer.fit_transform(datingDataMat)
print(datingDataMat[:3,:3])
[[4.092000e+04 8.326976e+00 9.539520e-01][1.448800e+04 7.153469e+00 1.673904e+00][2.605200e+04 1.441871e+00 8.051240e-01]]
[[0.44832535 0.39805139 0.56233353][0.15873259 0.34195467 0.98724416][0.28542943 0.06892523 0.47449629]]

可以看出,数据得到了很好的归一化

2.2.4测试算法

采用90%作为训练数据,10%为测试数据

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_splittrain_data,test_data,train_lable,test_lable=train_test_split(datingDataMat,datingLabels,test_size=0.1)
test_number=len(test_data)
acc_number=0
for i in range(test_number):prediction=classify0(test_data[i],train_data,train_lable,10)print('%3dth: label:%s,prediction:%s'%((i+1), test_lable[i],prediction))if prediction==test_lable[i]:acc_number+=1
print('Accuracy:%.2f%%'%(acc_number/test_number*100))
  1th: label:smallDoses,prediction:smallDoses2th: label:smallDoses,prediction:smallDoses3th: label:largeDoses,prediction:largeDoses4th: label:largeDoses,prediction:largeDoses5th: label:largeDoses,prediction:smallDoses6th: label:largeDoses,prediction:largeDoses7th: label:smallDoses,prediction:smallDoses
...98th: label:didntLike,prediction:didntLike99th: label:didntLike,prediction:didntLike
100th: label:didntLike,prediction:didntLike
Accuracy:94.00%

可以看出,在此数据集中,k近邻的正确率高达90%以上

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/5221.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++11】左值引用 与 右值引用

定义 左值 / 左值引用 左值&#xff08;Lvalue&#xff09;&#xff1a; 左值是一个表示数据的表达式(如变量名或解引用的指针)&#xff0c;我们可以 对它取地址 可以对它赋值&#xff0c;左值可以出现赋值符号的左边&#xff0c;右值不能出现在赋值符号左边。定义时const修…

网络系统集成实验(五)| 系统集成路由器OSPF动态、综合路由配置

一、前言 该系列文章将会对网络系统集成课程中相关实验进行更新&#xff0c;本篇为第五篇&#xff0c;有关路由器的OSPF、综合路由配置&#xff0c;包括了OSPF的配置实验、单臂路由实验、RIP配置实验、综合实验等。 注意&#xff1a;该实验的后半部分综合实验基于前面的实验&am…

在idea中高并发下的分布式锁以及解决方法

案例:1.互联网秒杀 2.抢优惠卷 3.接口幂 引入pom文件 <packaging>war</packaging><dependencies><dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>5.2.8.RELEA…

Python 基本数据类型(三)

文章目录 每日一句正能量数值运算数值类型实例String&#xff08;字符串&#xff09; 每日一句正能量 人的相处&#xff0c;靠的是真心&#xff0c;不是套路。合得来的人&#xff0c;坦诚相待&#xff0c;合不来的人&#xff0c;客气寒暄&#xff1b;谁也别给谁冷脸看&#xff…

自然语言处理从入门到应用——预训练模型总览:迁移学习与微调

分类目录&#xff1a;《自然语言处理从入门到应用》总目录 相关文章&#xff1a; 预训练模型总览&#xff1a;从宏观视角了解预训练模型 预训练模型总览&#xff1a;词嵌入的两大范式 预训练模型总览&#xff1a;两大任务类型 预训练模型总览&#xff1a;预训练模型的拓展 …

【夜深人静学数据结构与算法】回溯算法

目录 前言&#xff1a; 回溯算法&#xff1a; 回溯法的常见应用: 回溯法的模板: 回溯法的图解&#xff1a;​ 案例&#xff1a; 77. 组合 - 力扣&#xff08;LeetCode&#xff09; 总结&#xff1a; 前言&#xff1a; 回溯算法是一个比较抽象的算法&#xff0c;因此我们…

基于Springboot+vue的垃圾分类网站设计与实现

博主介绍&#xff1a; 大家好&#xff0c;我是一名在Java圈混迹十余年的程序员&#xff0c;精通Java编程语言&#xff0c;同时也熟练掌握微信小程序、Python和Android等技术&#xff0c;能够为大家提供全方位的技术支持和交流。 我擅长在JavaWeb、SSH、SSM、SpringBoot等框架…

Transformer(四)--实现验证:transformer 机器翻译实践

转载请注明出处&#xff1a;https://blog.csdn.net/nocml/article/details/125711025 本系列传送门&#xff1a; Transformer(一)–论文翻译&#xff1a;Attention Is All You Need 中文版 Transformer(二)–论文理解&#xff1a;transformer 结构详解 Transformer(三)–论文实…

【Spring】Bean的作用域与生命周期详情:请简述Spring的执行流程并分析Bean的生命周期?

前言 我们都知道&#xff0c;Spring框架为开发人员提供了很多便捷&#xff0c;这使得开发人员能够更加专注于应用程序的核心业务逻辑&#xff0c;而不需要花费大量时间和精力在技术细节上。作为一个包含众多工具方法的IoC容器&#xff0c;存取JavaBean是其极为重要的一个环节。…

linux运维常用命令(持续更新)

目录 一&#xff1a; 查看指定端口是否被监听 二&#xff1a;查看某个端口/服务相关进程 三&#xff1a;在B机器查看是否可以访问A机器某个端口,查看端口是否开放 四&#xff1a;查看端口占用列表 五&#xff1a;查看端口占用情况 六&#xff1a;查看哪些进程监听了2181端…

OpenCV(加载、修改、保存图像)

目录 1、图像加载 2、显示图像 3、修改图像 4、图像保存 OpenCV官方文档查询地址&#xff1a;OpenCV: OpenCV modules 1、图像加载 加载图像&#xff08;用cv::imread )imread功能是加载图像文件成为一个Mat对象&#xff0c;其中第一个参数表示图像文件名称 第二个参数&…

Debian 环境使用 docker compose 部署 sentry

Debian 环境使用 docker compose 部署 sentry Sentry 简介什么是 Sentry &#xff1f;Sentry 开发语言及支持的 SDKSentry 功能架构 前置准备条件规格配置说明Docker Desktop 安装WSL2/Debian11 环境准备 Sentry 安装步骤docker 部署 sentry 步骤演示过程说明 卸载关闭 Sentry总…