【机器学习】无监督学习算法之:层次聚类

层次聚类

  • 1、引言
  • 2、层次聚类
    • 2.1 定义
    • 2.2 原理
    • 2.3 实现方式
    • 2.4 算法公式
    • 2.5 代码示例
  • 3、总结

1、引言

小屌丝:鱼哥, 这周末过的滋润啊。
小鱼:… 每个周末都挺滋润的啊。
小屌丝:啊~ ~ 你这…
小鱼:周末加班,岂不滋润?
小屌丝:加班…
小鱼:对啊,加班哦。
小屌丝:你这加班…是在哪里,加什么班? ?
小鱼:你这…
小屌丝:难道 ??
在这里插入图片描述

小鱼:你是不是想学习 层次聚类算法? ?
小屌丝: 啊…这 …
小鱼:学不学?
小屌丝:这个,是学,还是不学??
小鱼:你说学不学?
小屌丝:这个… 学吧。
小鱼: 那咱就开始 ~

2、层次聚类

2.1 定义

层次聚类(Hierarchical Clustering)是一种无监督学习算法,用于对数据进行分组或聚类。
不同于K-means等聚类算法,层次聚类可以输出一个层次结构的分组结果,可以从粗到细地描述数据的聚类关系。

2.2 原理

层次聚类的原理是不断合并最相似的样本或子聚类,直到所有样本或子聚类都被合并成一个大的聚类。这个过程可以形象地表示为一个树状结构,称为聚类树(dendrogram)。

在层次聚类中,有两种常见的方法:凝聚式聚类和分裂式聚类

  • 凝聚式聚类(Agglomerative Clustering)从每个样本开始,将最相似的样本或聚类合并在一起,直到所有样本都被合并成一个大的聚类。这个过程中,通过计算样本或聚类之间的相似度来确定最相似的样本或聚类。

  • 分裂式聚类(Divisive Clustering)从一个整体开始,将整个样本或聚类分成若干个子聚类,然后逐步细分子聚类,直到每个样本都成为一个独立的聚类。这个过程中,通过计算样本或聚类内部的差异来确定划分方式。

2.3 实现方式

实现层次聚类算法通常包括以下步骤:

  • 初始化:每个样本点都被视为一个独立的簇。

  • 计算距离矩阵:计算所有样本点之间的距离,形成一个距离矩阵。这个矩阵将用于确定哪些簇应该合并。

  • 合并簇:基于某种链接准则(如单链接、全链接或平均链接),选择距离最近的两个簇进行合并。

  • 更新距离矩阵:随着簇的合并,更新距离矩阵以反映新簇之间的距离。

  • 重复步骤:重复步骤3和4,直到达到预设的簇数量或满足其他停止条件。

在合并簇的过程中,可以选择不同的链接准则,如单链接(Single-linkage)、全链接(Complete-linkage)或平均链接(Average-linkage)等。这些链接准则决定了如何计算簇之间的距离或相似度。

2.4 算法公式

凝聚层次聚类的核心步骤是计算簇之间的距离或相似度。以欧氏距离为例,假设有两个簇(C_i)和(C_j),它们分别包含样本点集合({x_1, x_2, …, x_m})和({y_1, y_2, …, y_n}),则簇间距离(d(C_i, C_j))可以使用以下公式计算:

单链接(Single-linkage) ( d ( C i , C j ) = min ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \min_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmind(x,y))
全链接(Complete-linkage) ( d ( C i , C j ) = max ⁡ x ∈ C i , y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \max_{x \in C_i, y \in C_j} d(x, y)) (d(Ci,Cj)=xCi,yCjmaxd(x,y))
平均链接(Average-linkage) ( d ( C i , C j ) = 1 m n ∑ x ∈ C i ∑ y ∈ C j d ( x , y ) ) (d(C_i, C_j) = \frac{1}{mn} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y)) (d(Ci,Cj)=mn1xCiyCjd(x,y))
其中, ( d ( x , y ) ) (d(x, y)) (d(x,y))表示样本点(x)和(y)之间的距离。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-03-01
# @Author : Carl_DJ'''
实现功能:使用sklearn库中的AgglomerativeClustering实现层次聚类:'''from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 创建示例数据
X, _ = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)# 应用层次聚类
cluster = AgglomerativeClustering(n_clusters=None, linkage='ward')  # 不预设聚类数量,采用 ward 方法
prediction = cluster.fit_predict(X)# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=prediction)
plt.title('Hierarchical Clustering')
plt.show()

在这里插入图片描述

3、总结

层次聚类是一种简单而直观的无监督学习方法,它通过构建层次结构来组织数据。
不同的链接准则和距离度量方法会影响聚类的结果,因此在实际应用中需要根据数据的特性和需求选择合适的参数。
层次聚类的一个主要优点是能够生成簇的层次结构,这有助于理解数据的内在结构和关系。
然而,它也有一些局限性,例如对于大规模数据集的计算效率可能较低,且一旦做出合并决策就无法撤销。
因此,在选择层次聚类时,需要综合考虑其优缺点以及具体应用场景的需求。

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 多个名企认证讲师等
  • 认证金牌面试官
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)测评一、二等奖获得者

关注小鱼,学习机器学习领域的知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/529728.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言实现贪吃蛇

前言:今天给大家详细介绍一下小游戏贪吃蛇的代码。 目录 一 .贪吃蛇实现的功能 二.贪吃蛇游戏设计与分析 1.贪吃蛇以及贪吃蛇所需要维护的数据 (1)贪吃蛇蛇体 (2)数据维护 2.地图设计 (1&#x…

第16章——西瓜书强化学习

在强化学习中,智能体通过与环境的交互来学习如何做出决策。在每个时间步,智能体观察当前的环境状态,并根据其策略选择一个动作。环境会对智能体的动作做出响应,并给出一个奖励信号(reward),该信…

【DH法】——机器人运动学正逆解

描述关节姿态 串联机器人的关节由电机连杆组成,如下图所示: 图1 PUMA560机器人结构模型 图2 PUMA560机器人实物 PUMA 560 robot in the experiment. | Download Scientific Diagram (researchgate.net)

车载诊断协议DoIP系列 —— AL IPv6地址分配通用DoIP报头结构

车载诊断协议DoIP系列 —— AL IPv6地址分配&通用DoIP报头结构 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自…

题目:珠宝的最大交替和(蓝桥OJ 3791)

问题描述: 解题思路:(思路样例从0开始赋值) 注意点:1.S需要开long long 2.需要考虑如果交换的差值(即Aj - Ai)为负数的情况。 题解:(实例代码为从1开始赋值,因此奇偶要与…

来,我们把LangChain了解一下

目录 LangChain简介 LangChain Experssion Language 常见API key申请 LangChain简介 最近要学的东西可太多了,好的,我们先来看看LangChain是什么东西,咱就是说开干吧: pip install langchain Get started吧:Get …

C语言——递归题

对于递归问题,我们一定要想清楚递归的结束条件,每个递归的结束条件,就是思考这个问题的起始点。 题目1: 思路:当k1时,任何数的1次方都是原数,此时返回n,这就是递归的结束条件&#…

Vue3 + antv/x6 实现流程图

新建流程图 // AddDag.vue <template><div class"content-main"><div class"tool-container"><div click"undo" class"command" title"后退"><Icon icon"ant-design:undo-outlined" /…

深耕版本控制、代码质量与安全等领域,龙智荣获“Perforce 2023年度合作伙伴”奖项

在近日举行的Perforce 2024合作伙伴峰会上&#xff0c;龙智被评选为“Perforce 2023年度合作伙伴”。这一奖项不仅是对龙智在中国市场开拓中的进取精神与丰硕成果的高度认可&#xff0c;也是Perforce公司对于龙智持续创新精神及专业技术与服务的表彰。 自2012年成为Perforce中…

PyCharm无代码提示解决

PyCharm无代码提示解决方法 在使用PyCharm工具时&#xff0c;调用方法却无法进行提示&#xff0c;针对PyCharm无代码提示整理下解决方案 1、Python内置语法无智能提示 复现&#xff1a;我这里以urllib库读取网页内容为例&#xff0c;在通过urlopen(&#xff09;之后调用getur…

强烈推荐—GpuMall智算云实例网盘操作详解

实例网盘为实例的 /gm-fs 目录&#xff0c;该目录为实例同一个数据中心的分布式存储&#xff0c;对于较大的文件或者压缩文件有着出色的读写性能&#xff0c;实例网盘不受实例删除/释放影响&#xff0c;采用分布式冗余存储&#xff0c;数据安全性较高&#xff0c;强烈建议使用网…

jvm八股

文章目录 运行时数据区域Java堆对象创建对象的内存布局对象的访问定位句柄直接指针 GC判断对象是否已死引用计数算法可达性分析算法 引用的类别垃圾收集算法分代收集理论标记清除算法标记复制算法标记整理算法 实现细节并发的可达性分析 垃圾收集器serial收集器ParNew收集器Par…