【机器学习】无监督学习算法之：层次聚类-编程知识

【机器学习】无监督学习算法之：层次聚类

层次聚类

1、引言
2、层次聚类
- 2.1 定义
- 2.2 原理
- 2.3 实现方式
- 2.4 算法公式
- 2.5 代码示例
3、总结

1、引言

小屌丝：鱼哥，这周末过的滋润啊。
小鱼：… 每个周末都挺滋润的啊。
小屌丝：啊~ ~ 你这…
小鱼：周末加班，岂不滋润？
小屌丝：加班…
小鱼：对啊，加班哦。
小屌丝：你这加班…是在哪里，加什么班? ?
小鱼：你这…
小屌丝：难道？？
在这里插入图片描述

小鱼：你是不是想学习层次聚类算法？？
小屌丝：啊…这 …
小鱼：学不学？
小屌丝：这个，是学，还是不学？？
小鱼：你说学不学？
小屌丝：这个… 学吧。
小鱼：那咱就开始 ~

2、层次聚类

2.1 定义

层次聚类（Hierarchical Clustering）是一种无监督学习算法，用于对数据进行分组或聚类。
不同于K-means等聚类算法，层次聚类可以输出一个层次结构的分组结果，可以从粗到细地描述数据的聚类关系。

2.2 原理

层次聚类的原理是不断合并最相似的样本或子聚类，直到所有样本或子聚类都被合并成一个大的聚类。这个过程可以形象地表示为一个树状结构，称为聚类树（dendrogram）。

在层次聚类中，有两种常见的方法：凝聚式聚类和分裂式聚类。

凝聚式聚类（Agglomerative Clustering）从每个样本开始，将最相似的样本或聚类合并在一起，直到所有样本都被合并成一个大的聚类。这个过程中，通过计算样本或聚类之间的相似度来确定最相似的样本或聚类。
分裂式聚类（Divisive Clustering）从一个整体开始，将整个样本或聚类分成若干个子聚类，然后逐步细分子聚类，直到每个样本都成为一个独立的聚类。这个过程中，通过计算样本或聚类内部的差异来确定划分方式。

2.3 实现方式

实现层次聚类算法通常包括以下步骤：

初始化：每个样本点都被视为一个独立的簇。
计算距离矩阵：计算所有样本点之间的距离，形成一个距离矩阵。这个矩阵将用于确定哪些簇应该合并。
合并簇：基于某种链接准则（如单链接、全链接或平均链接），选择距离最近的两个簇进行合并。
更新距离矩阵：随着簇的合并，更新距离矩阵以反映新簇之间的距离。
重复步骤：重复步骤3和4，直到达到预设的簇数量或满足其他停止条件。

在合并簇的过程中，可以选择不同的链接准则，如单链接（Single-linkage）、全链接（Complete-linkage）或平均链接（Average-linkage）等。这些链接准则决定了如何计算簇之间的距离或相似度。

2.4 算法公式

凝聚层次聚类的核心步骤是计算簇之间的距离或相似度。以欧氏距离为例，假设有两个簇(C_i)和(C_j)，它们分别包含样本点集合({x_1, x_2, …, x_m})和({y_1, y_2, …, y_n})，则簇间距离(d(C_i, C_j))可以使用以下公式计算：

单链接（Single-linkage）： $(d(C_i, C_j) = \min_{x \in C_i, y \in C_j} d(x, y))$
全链接（Complete-linkage）： $(d(C_i, C_j) = \max_{x \in C_i, y \in C_j} d(x, y))$
平均链接（Average-linkage）： $(d(C_i, C_j) = \frac{1}{mn} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y))$
其中， $(d (x, y))$ 表示样本点(x)和(y)之间的距离。

2.5 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-03-01
# @Author : Carl_DJ'''
实现功能：使用sklearn库中的AgglomerativeClustering实现层次聚类：'''from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 创建示例数据
X, _ = make_blobs(n_samples=100, n_features=2, centers=3, random_state=42)# 应用层次聚类
cluster = AgglomerativeClustering(n_clusters=None, linkage='ward')  # 不预设聚类数量，采用 ward 方法
prediction = cluster.fit_predict(X)# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=prediction)
plt.title('Hierarchical Clustering')
plt.show()

在这里插入图片描述

3、总结

层次聚类是一种简单而直观的无监督学习方法，它通过构建层次结构来组织数据。
不同的链接准则和距离度量方法会影响聚类的结果，因此在实际应用中需要根据数据的特性和需求选择合适的参数。
层次聚类的一个主要优点是能够生成簇的层次结构，这有助于理解数据的内在结构和关系。
然而，它也有一些局限性，例如对于大规模数据集的计算效率可能较低，且一旦做出合并决策就无法撤销。
因此，在选择层次聚类时，需要综合考虑其优缺点以及具体应用场景的需求。

我是小鱼：