机器学习入门(第三天)——K近邻(物以类聚)

K-nearest neighbor

知识树

怎么区分红豆绿豆?

How to distinguish red beans and green beans?

之前我们构造了一个超平面来解决这个问题,既然超平面可以切分,是不是红豆之间和绿豆之间有着某种关联。即:物以类聚。

如果一个豆过来自然而然的到红豆堆,我们有理由认为它大概率是红豆。

  1. 同一标签的样本通常有很多相似的特征。

  2. 没进来一个样本,查看它周边的样本是什么类别,那么它就很有可能属于该类别。

那么某个点与其它点距离怎么计算。

距离度量

Distance measure

首先令

度量的方法有:

欧式距离(也称二范数):

xi里的x减去对应位置的xj里的x,然后全部平方,再求和,然后开根号。

如果两个点之间的距离很远,那么值就会很大

曼哈顿距离(也称一范数/也称城市街区距离):

相对上面欧式距离,不需要平方-相加-开根号,只要拿它的绝对值-相加即可

P范数:

引出P范数,p=1则是一范数,p=2则是二范数

还有3范数(也称切比雪夫距离/棋盘距离)

最常用的是欧式距离>曼哈顿距离>切比雪夫距离

总结

Summarization

  1. K近邻思想:物以类聚

  2. K近邻没有显式的训练过程

    1. 不需要先训练再预测,直接得到结果

  3. 距离度量

    1. 欧式距离:两点之间直线

    2. 曼哈顿距离:城市街区距离

    3. 切比雪夫距离:棋盘距离

K值的选择

How to chose K

选择较小的K值

用较小的邻域进行预测。预测结果对邻近的实例点非常敏感。如果邻近的实例点恰好是噪声,预测就会出错。

选择较大的K值

用较大的邻域进行预测。对于输入实例较远(已经不太相似)的样本点也会对预测起作用,使预测发生错误。

在应用中

先取一个较小的K值,再通过交叉验证法来选取最优的K值

分数表决规则

Majority voting rule

分类决策规则:多数表决

损失函数:

实心圆内都判断为红色的损失值

实心圆内都判断为蓝色的损失值

K近邻算法

K-nearest neighbor

输入:训练数据T = [(x1, y1),...,(xn,yn)]

实例特征向量x。

  1. 根据给定的距离度量,在训练集中找到与x最近的k个点,涵盖这k个点的邻域记作Nk(x)

  2. 在Nk(x)中根据分类决策规则(如多少表决)决定x的类别y

    输出实例x所属的类别y

总结

Summarization

  1. K近邻的思想:物以类聚

  2. K近邻没有显式的训练过场

  3. 距离度量:欧式距离、曼哈顿距离、切比雪夫距离

  4. 分类方式:多数表决规则

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/206472.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马蹄集oj赛(双周赛第十五次)

目录 小码哥的开心数字 淘金者 捡麦子 小码哥玩游戏 手机测试 自动浇花机 买月饼 未来战争 双人成行 魔法水晶球 ​编辑自驾游 文章压缩 银河贸易市场 小码哥的开心数字 子难度:青铜 0时间限制:1秒 巴占用内存:64M 小码哥有超能…

如何使用 Navicat 连接 GaussDB 主备版

Navicat Premium(16.2.8 Windows版或以上) 已支持对GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结构同步、协同合作、数据迁移等),这…

私域电商模式全解析:掌握这些方法,让你的生意不再难做!

私域电商是指利用微信、QQ等社交平台将客户流量转化和沉淀,并促使其进行重复购买的电商模式。私域电商具备两个主要特点,分别是“私域”和“电商”。 “私域”指的是将客户添加为好友,并利用微信、QQ、微博等社交平台进行联系和营销的模式。…

怎样实现内网穿透?

第一步:cpolar是一种安全的内网穿透云服务,它将内网下的本地服务器通过安全隧道暴露至公网。使得公网用户可以正常访问内网服务。打开网址 cpolar 下载 。 步骤: 打开网站>点击免费试用>创建账号>下载应用一直点下一步下载完成。第…

2.4G无线收发芯片 XL2400P使用手册

XL2400P 系列芯片是工作在 2.400~2.483GHz 世界通用 ISM 频段的单片无线收发芯片。该芯片集成射 频收发机、频率收生器、晶体振荡器、调制解调器等功能模块,并且支持一对多组网和带 ACK 的通信模 式。发射输出功率、工作频道以及通信数据率均可配置。芯片已将多颗外…

phpinfo中的重要信息

phpinfo中的重要信息 1.PHP/操作系统版本信息2.Configuration File(ini配置文件位置)3.Registered PHP Streams(支持的流)4.Registered Stream Filters(支持的流过滤器)5.allow_url_fopen&allow_url_include6.disable_functions7.display_errors8.include_path9.open_based…

ui设计师简历自我评价的范文(合集)

ui设计师简历自我评价的范文篇一 本人毕业于艺术设计专业,具有较高的艺术素养,平时注重设计理论知识的积累,并将理论应用到作品中。了解当下设计的流行趋势,设计注重细节、重视用户体验,对色彩搭配有着浓厚的兴趣&…

CmakeLists编译的动态库.so移动到其他位置后,提示找不到该库的依赖库解决办法

主要问题: 最近在搞海康SDK调用相机,发现在linux下一直调用不起来相机,总是提示error code:29,注册失败,重新编译优惠存在找不到依赖库的问题。 1.异常 CmakeLists编译的动态库.so移动到其他位置后&#…

2023 IDEA大会开幕 共探AI新篇章下的技术创新与创业

11月22日,AI与数字经济领域一年一度的科创盛会,2023 IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布IDEA研究院的重磅研产结晶与市场化成果;在大咖云集的论坛环节,多…

C++:AVL树(平衡二叉树)

引言: AVL树是一种特殊的二叉搜索树,二叉搜索树虽然可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树,查找元素相当于在顺序表中搜索元素,效率低下。因此,两位俄罗斯的数学家G.M.Ade…

论文《Unsupervised Dialog Structure Learning》笔记:详解DD-VRNN

D-VRNN模型和DD-VRNN模型 总体架构 离散-可变循环变分自编码器(D-VRNN)和直接-离散-可变循环变分自编码器(DD-VRNN)概述。D-VRNN和DD-VRNN使用不同的先验分布来建模 z t z_t zt​之间的转换,如红色实线所示。 x t x_t…

RabbitMQ安装说明

注意: 本次安装以 CentOS 7为例 1、 准备软件 erlang 18.3 1.el7.centos.x86_64.rpm socat 1.7.3.2 5.el7.lux.x86_64.rpm rabbitmq server 3.6.5 1.noarch.rpm 2、安装Erlang rpm -ivh erlang-18.3-1.el7.centos.x86_64.rpm 3.、安装RabbitMQ 安装 rpm -ivh socat-1.7.3.2-…