【非监督学习 | 聚类】聚类算法类别大全 距离度量单位大全

在这里插入图片描述

🤵‍♂️ 个人主页: @AI_magician
📡主页地址: 作者简介:CSDN内容合伙人,全栈领域优质创作者。
👨‍💻景愿:旨在于能和更多的热爱计算机的伙伴一起成长!!🐱‍🏍
🙋‍♂️声明:本人目前大学就读于大二,研究兴趣方向人工智能&硬件(虽然硬件还没开始玩,但一直很感兴趣!希望大佬带带)

在这里插入图片描述

【深度学习 | 核心概念】那些深度学习路上必经的核心概念,确定不来看看? (一)
作者: 计算机魔术师
版本: 1.0 ( 2023.8.27 )

摘要: 本系列旨在普及那些深度学习路上必经的核心概念,文章内容都是博主用心学习收集所写,欢迎大家三联支持!本系列会一直更新,核心概念系列会一直更新!欢迎大家订阅

该文章收录专栏
[✨— 《深入解析机器学习:从原理到应用的全面指南》 —✨]

聚类算法

聚类算法是一种无监督学习的机器学习算法,用于将数据集中的样本划分为具有相特征的组或簇。其目标划分的原则是组内(内部)距离最小化,而组间(外部)距离最大化。在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体,并且概括出每一类消费者的消费模式或消费习惯。同时,聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤,如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别包括的主要算法优缺点分析
划分(分裂)方法K-Means算法(K-平均),K-MEDOIDS算法(K-中心点)和CLARANS算法(基于选择的算法)。优点:简单且易于实现,对处理大数据集和高维数据具有良好的可扩展性。缺点:对初始聚类中心的选择敏感,可能收敛到局部最优解,对异常值和噪声敏感。
层次分析方法BIRCH算法(平衡迭代规约和聚类),CURE算法(代表点聚类)和CHAMELEON算法(动态模型)。优点:可以自动发现任意形状和大小的聚类,不需要预先指定聚类个数。缺点:对于大数据集,计算成本较高,可能受到噪声和异常点的干扰。
基于密度的方法DBSCAN算法(基于高密度连接区域),DENCLUE算法(密度分布函数)和OPTICS算法(对象排序识别)。优点:能够发现任意形状的聚类,对噪声和异常值具有较好的鲁棒性。缺点:对于高维数据和具有不同密度聚类的数据集效果较差,需要事先指定一些参数。
基于网格的方法STING算法(统计信息网络),CLIOUE算法(聚类高维空间)和WAVE-CLUSTER算法(小波变换)。优点:对于高维数据和大规模数据集有良好的可扩展性,能够处理不同形状和大小的聚类。缺点:对初始网格的选择敏感,可能受到数据分布的影响。

以下是常用的聚类算法,

聚类算法模型所需参数适用范围距离度量优缺点
K-means簇的数量数值型数据欧几里德距离优点:简单易实现,计算效率高;缺点:对初始聚类中心敏感,不适用于非凸形状的簇
层次聚类(Hierarchical Clustering)距离或相似度的度量方法数值型或类别型数据可选多种距离度量方法,如欧几里德距离、曼哈顿距离等优点:不需要预先指定簇的数量,可用于发现任意形状的簇;缺点:计算复杂度高,不适用于处理大规模数据
DBSCAN邻域半径(epsilon)和最小邻域样本数(min_samples)数值型或类别型数据基于密度的距离度量优点:能够发现任意形状的簇,对初始聚类中心不敏感;缺点:对参数的选择敏感,不适用于高维数据
密度聚类(Density-Based Clustering)邻域密度阈值数值型或类别型数据基于密度的距离度量优点:对噪声数据和离群点具有较好的鲁棒性;缺点:对参数的选择敏感
局部离群因子(Local Outlier Factor,LOF)邻域大小(k)数值型或类别型数据基于密度的距离度量优点:能够检测出离群点和数据集中的聚类结构;缺点:对数据集中的局部结构敏感
高斯混合模型(Gaussian Mixture Model,GMM)簇的数量数值型数据基于概率模型的距离度量优点:能够对数据进行软聚类,灵活性高;缺点:对初始聚类中心敏感,计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍,以及相应的优缺点分析:

名称介绍优缺点分析
欧氏距离(Euclidean Distance)欧氏距离是最常用的距离度量算法之一,它衡量两个向量之间的直线距离。在欧氏空间中,两个向量的欧氏距离等于它们各个维度差值的平方和的开方。优点:简单直观,易于理解和计算。缺点:对异常值敏感,受维度灾难影响。
曼哈顿距离(Manhattan Distance)曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中,曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
切比雪夫距离(Chebyshev Distance)切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中,切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。优点:对异常值不敏感,适用于稀疏数据。缺点:不考虑维度之间的相关性。
闵可夫斯基距离(Minkowski Distance)闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广,它通过参数p来控制距离的计算方式。当p=1时,闵可夫斯基距离等同于曼哈顿距离;当p=2时,等同于欧氏距离。优点:灵活性强,可以根据需求选择不同的参数p。缺点:对于参数p的选择较为敏感。
马氏距离(Mahalanobis Distance)马氏距离考虑了数据集的协方差矩阵,通过将数据映射到一个空间中,使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。优点:考虑了特征之间的相关性,适用于高维数据。缺点:需要估计协方差矩阵,计算复杂度较高。
皮尔逊相关系数(Pearson Correlation Coefficient)皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。优点:可以衡量线性相关性,不受尺度变换影响。缺点:只能衡量线性相关性,对于非线性关系不敏感。
余弦相似度(Cosine Similarity)余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间,其中1表示完全相似,-1表示完全相反,0表示无相似性。优点:对于稀疏向量计算高效,不受维度灾难影响。缺点:不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

在这里插入图片描述

						  🤞到这里,如果还有什么疑问🤞🎩欢迎私信博主问题哦,博主会尽自己能力为你解答疑惑的!🎩🥳如果对你有帮助,你的赞是对博主最大的支持!!🥳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/221380.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

岂曰无衣 汉家衣裳再现锦绣美景

——福州第五届1122汉服节出行盛大开幕11月25日下午,闽江之心海丝广场,一场盛大的汉服文化节——福州第五届1122汉服节出行活动在这里隆重开幕。这个被誉为“穿在身上的历史”的传统文化,在这片古老而神秘的土地上焕发出新的生机与活力。据了…

NX二次开发UF_CURVE_ask_offset_direction_2 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CURVE_ask_offset_direction_2 Defined in: uf_curve.h int UF_CURVE_ask_offset_direction_2(UF_STRING_p_t input_curves, double offset_direction_vector [ 3 ] , double dra…

RH2288H V3服务器使用ISO安装系统

1.配置和服务器相同网段地址,RH2288H V3服务器bmc管理网口默认IP是192.168.2.100/24,默认用户root,默认Huawei12#$,网线连接BMC口,登录。默认密码可以在开机时按del键进入配置页面修改 2.配置raid,生产环境…

Deep Learning(wu--46)

文章目录 ContentsBeginBasic逻辑回归SGD导数计算图(反向传播)向量化广播numpy Neural Network向量化激活函数梯度下降深层表示反向传播 Contents Begin Basic 逻辑回归 SGD 导数 计算图(反向传播) 向量化 广播 numpy Neural Netw…

Vue快速实践总结 · 上篇

文章目录 模板语法数据绑定事件处理计算属性监视属性(监听器)条件渲染列表渲染数据监视原理内置指令总结生命周期组件化编程组件使用步骤组件的嵌套this指向单文件组件ref、props 脚手架(Vue CLI)render函数 参考自己的Vue专栏以及Vue官方文档 模板语法 …

【Java+SQL Server】前后端连接小白教程

目录 📋 流程总览 ⛳️【SQL Server】数据库操作 1. 新建数据库text 2. 新建表 3. 编辑表 ⛳️【IntelliJ IDEA】操作 1. 导入jar包 2. 运行显示错误 📋 流程总览 ⛳️【SQL Server】数据库操作 打开SQL Server数据库-->sa登录-->新建数据库…

Vue+ElementUI+C#技巧分享:周数选择器

文章目录 前言一、周数的计算逻辑1.1 周数的定义1.2 年初周数的确定1.3 周数的计算方法 二、VueElementUI代码实现2.1 计算周数2.2 获取周的日期范围2.3 根据周数获取日期范围2.4 控件引用2.4.1 控件引用代码分析2.4.2 初始化变量代码分析 2.5 周数选择器完整代码 三、C#后端代…

tomcat-pass-getshell 弱口令 漏洞复现

tomcat-pass-getshell 弱口令 漏洞复现 名称: tomcat-pass-getshell 弱口令 描述: Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。 通过弱口令登…

你好python!——python中的函数与数据容器

一、函数的定义 1.1函数定义语法 1.2函数的参数 1.2.1参数的传入 python中函数的参数和C语言函数的参数其实一样,他们都是形参,是实参的一份临时拷贝。我们来定义一个加法函数来看看函数的参数传入: 参数之间使用逗号进行分隔。 1.2.2函…

17. Python 数据库操作之MySQL和SQLite实例

目录 1. 简介2. 使用PyMySQL2. 使用SQLite 1. 简介 数据库种类繁多,每种数据库的对外接口实现各不相同,为了方便对数据库进行统一的操作,大部分编程语言都提供了标准化的数据库接口,用户不需要了解每种数据的接口实现细节&#x…

Ceph----CephFS文件系统的使用:详细实践过程实战版

CephFS 介绍 是一个基于 ceph 集群 且兼容 POSIX 标准的文件系统。 创建 cephfs 文件系统时 需要在 ceph 集群中添加 mds 服务,该服务 负责处理 POSIX 文件系统中的 metadata 部分, 实际的数据部分交由 ceph 集群中的 OSD 处理。 cephfs 支持以内核模块…

LeetCode198.打家劫舍

打家劫舍和背包问题一样是一道非常经典的动态规划问题,只要做过几道动态规划的题,这道题简直就非常容易做出来。我应该花了10来分钟左右就写出来了,动态规划问题最重要的就是建立状态转移方程,就是说如何从上一个状态转移到下一个…