聚类分析例题 (多元统计分析期末复习)

例一

动态聚类,K-means法,随机选取凝聚点(题目直接给出)

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为两类(凝聚点分别取1,4与1,11)


解:以1,4为例
STEP1确定凝聚点:X1和X5
STEP2确定初始分类, G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1,x2,x3}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x4,x5}
STEP3重新计算各类的重心,以其作为新的凝聚点,分别为3.3和9
STEP4 以新的重心为凝聚点重新修改分类,结果不变,故聚类结果为 G 1 {G_1} G1={x1,x2,x3}, G 2 {G_2} G2={x4,x5}

例二

动态聚类,K-means法,还是上面的例子,使用密度法选取凝聚点

已知5个样品的观测值为:1,4,5,7,11。试用K均值法分为三类


密度法:

  • 首先计算出每个样品的密度,密度即:以正数d为半价,样品为球心,落在球内的样品数;
  • 选择密度最大的样品作为第一凝聚点;
  • 人为确定一个正数D(一般D>d),若次大密度样品点与第一凝聚点距离大于D则作为第二个凝聚点,否则舍去,选取密度次于它的样品;

解:d=2,D=3.5

STEP1计算出每个样品的密度

x1x2x3x4x5
密度01210

因此第一凝聚点为x3,次大密度样品点位x2和x4,但它们与x3的距离小于D,故舍去,选取x1和x5作为第二凝聚点;

STEP2确定初始分类,除凝聚点之外的样品点按照最小距离原则确定它们的分类
G 1 ( 0 ) {G_1^{(0)}} G1(0)={x1}, G 2 ( 0 ) {G_2^{(0)}} G2(0)={x2,x3,x4}, G 3 ( 0 ) {G_3^{(0)}} G3(0)={x5}。

STEP3重新计算各类的重心,以其作为新的凝聚点
三类重心分别为:1,5.3,11
STEP4 重新确定各样品归属的类别:
G 1 ( 1 ) {G_1^{(1)}} G1(1)={x1}, G 2 ( 1 ) {G_2^{(1)}} G2(1)={x2,x3,x4}, G 3 ( 1 ) {G_3^{(1)}} G3(1)={x5}

若与上一次分类的结果不同,需要继续计算各类的重心,重新分类。可以看到这次的分类结果与上一次相同,因此算法终止,聚类结果为 G 1 {G_1} G1={x1}, G 2 {G_2} G2={x2,x3,x4}, G 3 {G_3} G3={x5}。

例三

[应用多元统计分析(高惠璇版)6-3]
系统聚类法——最长距离、类平均法
在这里插入图片描述


系统聚类法基本思想 :设有n个样品,每个样品m项指标。首先将n个样品视为n类,计算类间距离(此时类间距离与样品间距离是等价的),选取 距离最近 的两类合并成新类,并计算新类与其他类的距离,再按最小距离原则并类,每次合并一类直至所有样品都并成一类。

最长距离法

最长距离法和最短距离法的本质是一样的,计算类与类的距离时使用下面的公式:
在这里插入图片描述
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为: x i {x_i} xi到x1的距离与 x i {x_i} xi到x4的距离中最大的那个
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 0 x 5 3 5 0 C L 4 7 10 8 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9 & 0 \\ x5 & 3 & 5 &0 \\ CL4 & 7 & 10 &8 &0 \end{bmatrix} x2x3x5CL4x20937x30510x508CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)
x3到CL4和CL3的距离计算和上面一样

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 10 0 C L 3 9 8 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 10 & 0 \\ CL3 & 9 & 8 &0 \\ \end{bmatrix} x3CL4CL3x30109CL408CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3=8
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 10 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 10 & 0 \\ \end{bmatrix} x3CL2x3010CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4=10

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述

类平均法

类平均法的类间距离计算公式如下
在这里插入图片描述
具体步骤和上面类似,不同的是在计算类间距离的不同。这里使用距离的平方。
STEP1从初始矩阵出发,选择类间距离最小的合并为一类,即并类距离 D 1 {D_1} D1=1
合并x1和x4,记CL4={x1,x4},画出距离矩阵 D ( 1 ) {D^{(1)}} D(1)
其他类 x i {x_i} xi(i=2、3、5)到CL4的距离为:
以x2到CL4的距离为例,其他的同理:
D 2 {D^2} D2= 1 2 {1 \over 2} 21 D 21 2 {D_{21}^2} D212+ 1 2 {1 \over 2} 21 D 24 2 {D_{24}^2} D242= 1 2 {1 \over 2} 21× 4²+ 1 2 {1 \over 2} 21× 7²=65/2

所以可以画出的距离矩阵为:
D ( 1 ) {D^{(1)}} D(1)= [ x 2 x 3 x 5 C L 4 x 2 0 x 3 9 2 0 x 5 3 2 5 2 0 C L 4 65 / 2 136 / 2 100 / 2 0 ] \begin{bmatrix} & x2 & x3 & x5& CL4 \\ x2 & 0 & \\ x3 & 9² & 0 \\ x5 & 3² & 5² &0 \\ CL4 & 65/2 & 136/2 &100/2 &0 \end{bmatrix} x2x3x5CL4x20923265/2x3052136/2x50100/2CL40

STEP2同样选择类间距离最小的合并为一类,x2和x5的距离最近,并类距离 D 2 {D_2} D2=3
合并x2和x5,记CL3={x2,x5},画出距离矩阵 D ( 2 ) {D^{(2)}} D(2)

CL4到CL3的距离计算如下:

D 2 {D^2} D2= 1 2 {1 \over 2} 21 D ( C L 4 ) 2 2 {D_{(CL4)2}^2} D(CL4)22+ 1 2 {1 \over 2} 21 D ( C L 4 ) 5 2 {D_{(CL4)5}^2} D(CL4)52= 1 2 {1 \over 2} 21× (65/2)+ 1 2 {1 \over 2} 21× (100/2)=165/4

D ( 2 ) {D^{(2)}} D(2)= [ x 3 C L 4 C L 3 x 3 0 C L 4 136 / 2 0 C L 3 106 / 2 165 / 4 0 ] \begin{bmatrix} & x3 & CL4 & CL3 \\ x3 & 0 & \\ CL4 & 136/2 & 0 \\ CL3 & 106/2 & 165/4 &0 \\ \end{bmatrix} x3CL4CL3x30136/2106/2CL40165/4CL30

STEP3选择类间距离最小的合并为一类,CL4和CL3的距离最近,并类距离 D 3 {D_3} D3= 165 / 4 \sqrt{165/4} 165/4
合并CL3和CL4,记CL2={x1,x2,x4,x5},画出距离矩阵 D ( 3 ) {D^{(3)}} D(3)

D ( 3 ) {D^{(3)}} D(3)= [ x 3 C L 2 x 3 0 C L 2 121 / 2 0 ] \begin{bmatrix} & x3 & CL2 \\ x3 & 0 & \\ CL2 & 121/2 & 0 \\ \end{bmatrix} x3CL2x30121/2CL20

STEP4将所有类合并为一类,CL1={x1,x2,x3,x4,x5},并类距离 D 4 {D_4} D4= 121 / 2 \sqrt{121/2} 121/2

D ( 4 ) {D^{(4)}} D(4)= [ C L 1 C L 1 0 ] \begin{bmatrix} & CL1 \\ CL1 & 0 & \\ \end{bmatrix} [CL1CL10]

STEP5画出谱系聚类图

在这里插入图片描述


(注:无论用什么系统聚类法,在并类时都是选择类间距离最小的两个类,使用最长距离法/类平均法/···的区别只是在计算类与类之间的距离时不同)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/231562.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解 Vue 中的指针操作(二)

文章目录 ☘️引言☘️基本用法🍂v-for指令🍂v-model指令🌱v-model适用表单控件 ☘️结论 ☘️引言 Vue.js 是一款非常流行且功能强大的前端框架,它以其响应式的数据绑定和组件化的开发方式赢得了众多开发者的喜爱。而在 Vue.js …

[node] Node.js 中Stream流

[node] Node.js 中Stream流 什么是 Stream流操作从流中读取数据写入流管道流链式流 什么是 Stream Stream 是一个抽象接口,Node 中有很多对象实现了这个接口。例如,对http 服务器发起请求的request 对象就是一个 Stream,还有stdout&#xff…

ExoPlayer - Failed to initialize OMX.qcom.video.decoder.avc

人莫鉴于流水而鉴于止水,唯止能止众止 1. 背景 使用ExoPlayer,我不信你没遇到过这个问题: java.lang.IllegalArgumentException: Failed to initialize OMX.qcom.video.decoder.avc 详细内容如下图所示: 2. MediaCodec(解码器) …

MySQL三大日志详细总结(redo log undo log binlog)

MySQL日志 包括事务日志(redolog undolog)慢查询日志,通用查询日志,二进制日志(binlog) 最为重要的就是binlog(归档日志)事务日志redolog(重做日志)undolog…

TCP 连接建立

1:TCP 三次握手过程是怎样的? 客户端和服务端都处于 CLOSE 状态,服务端主动监听某个端口,处于 LISTEN 状态 第一次握手:客户端带着序号和SYN为1,把第一个 SYN 报文发送给服务端,客户端处于 SYN-…

【动态规划】LeetCode-70.爬楼梯

🎈算法那些事专栏说明:这是一个记录刷题日常的专栏,每个文章标题前都会写明这道题使用的算法。专栏每日计划至少更新1道题目,在这立下Flag🚩 🏠个人主页:Jammingpro 📕专栏链接&…

unity UI特效遮罩

using System.Collections; using System.Collections.Generic; using UnityEngine;/**UI特效遮罩 1.需要将ScrollRect 的遮罩Mask 换为 2D Mask2.将特效的Render里面的 Masking 设置为*/ public class UIParticleMaskControll : MonoBehaviour {// Start is called before …

C库函数—sprintf

函数介绍: C 库函数 int sprintf(char *str, const char *format, ...) 发送格式化输出到 str 所指向的字符串。 参数: str -- 这是指向一个字符数组的指针,该数组存储了 C 字符串。format -- 这是字符串,包含了要被写入到字符串 …

Intellij idea 内存不够用了,怎么处理?

目录 如何判断内存不够用了 下面演示一下如何开启内存指示器(Memory Indicator) 解决方案 第一种:双击"内存指示器(Mempory Indicator)" 第二种:增大Intellij Idea 最大可使用内存 如何判断内存不够用了 运行项目后…

C# WPF 基础教程——触发器、行为、形状、变换与透明、路径和几何图形

触发器 简单触发器 单条件触发器 多条件触发器 事件触发器 行为 形状 矩形和椭圆 Viewbox缩放控件,直线,折线,多边形 画刷 普通画刷 线性渐变画刷 环形渐变画刷 位图画刷 虚拟画刷(复制元素外观) 位图缓存画刷 变换…

JVM执行引擎以及调优

1.JVM内部的优化逻辑 1.1JVM的执行引擎 javac编译器将Person.java源码文件编译成class文件[我们把这里的编译称为前期编译],交给JVM运行,因为JVM只能认识class字节码文件。同时在不同的操作系统上安装对应版本的JDK,里面包含了各自屏蔽操作…

AI - FlowField(流场寻路)

FlowField流场寻路,利用网格存储每个点对目标点的推力,网格上的单位根据对于推力进行移动。用于大量单位进行寻路对于同一目的地的寻路,常用于rts游戏等。 对应一张网格地图(图中黑块是不可行走区域) 生成热度图 计算所有网格对于目标点(…