机器学习|KNN和Kmeans

KNN和Kmeans

KNN

在这里插入图片描述
KNN-K个最近的邻居,而K是可人先预设出来的。
所谓近朱者赤,近墨者黑。
可以选取离当前最近的K个样本来作为辅助判断,因为本样本和最近的K个样本应该是处于一种相似的状态。
以下是一个苹果和梨的识别任务。
图上会出现一个未知的事物,可以结合和根据以往已经出现在图上的数据来对这个未知事物进行判断。
在这里插入图片描述
可以选取离这个样本最近的K个样本进行判断,比如上图,让K=3,离样本最近的3个样本有两个梨子,1个苹果。那么当前样本可能会被判断为梨子。
而关于最近的近也有不同的衡量来源,比如说曼哈顿距离和欧式距离。

K的选取

如果说K选取过小,则最近的样本的影响相对较大,若这个最近样本是一个特殊的样本,将被容易带偏。
如果说K选取过大,则如果样本数本身不够大的情况下,容易将偏远样本的信息也囊括进来,容易受到相关影响。

KNN算法的应用

在这里插入图片描述
比如在推荐算法中,可以将用户和他在空间上相近的角色进行比对,从而得到相近的信息,来作为当前用户的特征,从而结合这个特征找到符合的商品来进行推送。
在这里插入图片描述
由于KNN一个新样本,需要和其他样本进行计算。计算本身会带来损耗。同时计算本身是受到K的大小和特征维度的影响。

Kmeans

在这里插入图片描述
KNN是通过周围K个水果来认出当前水果。
在这里插入图片描述
而SVM可以通过划分好的直线来将水果区分开,只需看水果落入的是哪一个范围,就可认为是哪一种水果。(实际处理中可能涉及到软间隔的影响)
而不管是KNN还是SVM,都是建立在已有标签的样本的数据之上。(KNN中的K个样本是需要知道这K个样本到底是啥,而SVM需要知道一些具有标签的样本,从而来画出能够区分开的线)
在这里插入图片描述
而只知道样本分布,不知道样本具体是啥的时候就需要用到Kmeans。
可以人为设置具体要分为几类,从而让Kmeans确认出最终各个点的归属。
打个比方,就好像有一片居民居住地,作为城市规划的专家,你要设置几个村中心,并将哪些人划分到这个村落中去来进行管理。
如果这个人居住地和某个村中心A相距比另一个村中心B来得更远,那么这个人应该被划分到村中心B中去。
也就是说,可以先认为离谁近就可以归于谁。

Kmeans步骤

可以粗略归纳为——选取样本中心->各点计算距离来归于某一个样本中心->不断迭代,直至样本中心稳定。
在这里插入图片描述
首先在图中随机找到两个点来作为样本中心(因为K=2,所以挑两个点)。
然后每一个点计算与这两个样本点的距离,从而来进行归类。
然后每一个点都计算出来到底归于哪一个类。
然后可以将类的点再取平均来作为这个类新的样本中心。
然后所有点再与新的样本中心进行计算,迭代,直至新的样本中心,没有再发生改变。
则可认为基本稳定。
在这里插入图片描述
所以Kmeans相对简单,容易上手,是一种无监督学习(不需要样本带有标签,只需要知道样本的分布即可,打标签是需要成本的,相关的工作可以在boss上面找到数据标注员的工作)。
而Kmeans也有缺点,比如效果并不一定比有监督学习来得好,并且效果比较依赖K的选取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/526517.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十二章执行引擎

第十二章执行引擎 文章目录 第十二章执行引擎0. 前情概述1. 执行引擎的概述1.1 执行引擎的工作过程 2. Java代码编译和执行的过程什么是解释器?什么是JIT编译器?为什么说java是半编译半解释型语言 3. 机器码、指令、汇编语言机器码指令指令集汇编语言高级…

架构面试题汇总:网络协议34问(七)

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 网络协议是实现各种设备和应用程序之间顺畅通信的基石。无论是构建分布式系统、开发Web应用,还是进行网络通信&#x…

主升浪趋势票如何去做,看完这2个例子就可以终结了

我们在这个市场是否能持续赚钱不被淘汰取决于我们自身迭代速度,向市场学习本身就是向市场资金共识方向靠拢,接近客观,远离个人偏见的主观。看清这一点,你才有可能性,否则连可能性都不会有。 在上述问题中,虽…

了解华为(PVID VLAN)与思科的(Native VLAN)本征VLAN的区别并学习思科网络中二层交换机的三层结构局域网VLAN配置

一、什么是二层交换机? 二层交换机(Layer 2 Switch)是一种网络设备,主要工作在OSI模型的数据链路层(第二层),用于在局域网内部进行数据包的交换和转发。二层交换机通过学习MAC地址表&#xff0…

2024年目标检测研究进展

YOLOv9 图片来源网络 YOLO相关的研究:https://blog.csdn.net/yunxinan/article/details/103431338

Openharmony的设备开发流程 Hi3516DV300

安装VirtualBox 这里用VirtualBox 6.1.3 https://download.virtualbox.org/virtualbox/6.1.30/VirtualBox-6.1.30-148432-Win.exe 安装 安装Ubuntu镜像 Ubuntu系统要求:Ubuntu18.04~21.10版本。推荐使用20.04版本,内存16 GB及以上。 https://mirrors…

16. C++标准库

C标准库兼容C语言标准函数库,可以在C标准库中直接使用C语言标准函数库文件,同时C标准库增加了自己的源代码文件,新增文件使用C编写,多数代码放在std命名空间中,所以连接C标准库文件后还需要 using namespace std;。 【…

【AcWing】蓝桥杯集训每日一题Day1|二分|差分|503.借教室(C++)

503. 借教室 503. 借教室 - AcWing题库难度:简单时/空限制:1s / 128MB总通过数:8052总尝试数:26311来源:NOIP2012提高组算法标签二分差分 题目内容 在大学期间,经常需要租借教室。 大到院系举办活动&…

【吊打面试官系列】Java虚拟机JVM篇 - 关于内存溢出

大家好,我是锋哥。今天分享关于内存溢出的JVM面试题,希望对大家有帮助; 什么是内存溢出? 内存溢出(OOM)是指可用内存不足。程序运行需要使用的内存超出最大可用值,如果不进行处理就会影响到其他…

Django添加app

Django添加App python manage.py startapp [app_name]快速上手 注册app,setting.py 编写url和视图的对应关系 添加视图函数 命令行启动 python manage.py runserver页面模板

七、软考-系统架构设计师笔记-数据库设计基础知识

1、数据库基础概念 数据库基本概念 数据(Data)数据库(Database)数据库管理系统(DBMS)数据库系统(DBS) 1.数据(Data) 是数据库中存储的基本对象,是描述事物的符号记录。 数据的种类: 文本、图形、图像、音频、视频等。 2.数据库(Database, DB) 数据库…

LeetCode Python - 44.通配符匹配

目录 题目答案运行结果 题目 给你一个输入字符串 (s) 和一个字符模式 ,请你实现一个支持 ‘?’ 和 ‘’ 匹配规则的通配符匹配: ‘?’ 可以匹配任何单个字符。 ’ 可以匹配任意字符序列(包括空字符序列)。 判定匹配成功的充要…