数模学习day11-系统聚类法

 

本文参考辽宁石油化工大学于晶贤教授的演示文档聚类分析之系统聚类法及其SPSS实现。

目录

1.样品与样品间的距离

2.指标和指标间的“距离”

相关系数

夹角余弦

3.类与类间的距离

(1)类间距离

(2)类间距离定义方式

1.最短距离法

2.最长距离法

3.组间平均连接法

4.组内平均连接法

5.重心法

4.常用系统聚类法

系统聚类法过程

5.例子

最短距离系统聚类法

1.写出样品间的距离矩阵(以欧氏距离为例)

2.将每一个样品看做是一个类

3.观察 D(G2,G4)= 15.9最小

4.观察 D(G6,G7)= 18.2最小

5.最后将G8与G3聚为一类,记为G9

6.该聚类的谱系图

最长距离系统聚类法

1.写出样品间的距离矩阵(以欧氏距离为例)

2.将每一个样品看做是一个类

3.观察 D(G2,G4)= 15.9最小

4.观察 D(G63,G7)= 32.4最小

5.最后将G8与G6聚为一类,记为G9

6.该聚类的谱系图

其它系统聚类法

聚类分析需要注意的问题

系统聚类法的Spss实现

1.录入数据

2.选择方法

3.统计量和绘制选项

4.方法和保存选项

总结


1.样品与样品间的距离

各种距离如下:

最常用的还是绝对值距离(特定距离),和欧式距离

举例使用如下


2.指标和指标间的“距离”

相关系数

夹角余弦

举例如下

3.类与类间的距离

(1)类间距离

由一个样品组成的类是最基本的类,如果每一类都由一个样品组成,那么样品间的距离就是类间距离。

(2)类间距离定义方式

如果某一类包含不止一个样品,那么就要确定类间距离,类间距离是基于样品间距离定义的,大致有如下几种定义方式:

1.最短距离法

2.最长距离法

3.组间平均连接法

4.组内平均连接法

5.重心法

4.常用系统聚类法

系统聚类法过程

5.例子

最短距离系统聚类法

1.写出样品间的距离矩阵(以欧氏距离为例)

2.将每一个样品看做是一个类

G1,G2,G3,G4,G5,观察D(G1,G5) = 15.8最小,故将G1与G5聚为一类,记为G6。

计算新类与其余各类之间的距离,得到新的距离矩阵D1

3.观察 D(G2,G4)= 15.9最小

故将G2与G4聚为一类,记为G7.

计算新类与其余各类之间的距离,得到新的距离矩阵D2

4.观察 D(G6,G7)= 18.2最小

故将G6与G7聚为一类,记为G8.

计算新类与其余各类之间的距离,得到新的距离矩阵D3

5.最后将G8与G3聚为一类,记为G9

6.该聚类的谱系图


最长距离系统聚类法

1.写出样品间的距离矩阵(以欧氏距离为例)

2.将每一个样品看做是一个类

即G1,G2,G3,G4,G5,观察D(G1,G5) = 15.8最小,故将G1与G5聚为一类,记为G6。

计算新类与其余各类之间的距离,得到新的距离矩阵D1

3.观察 D(G2,G4)= 15.9最小

故将G2与G4聚为一类,记为G7.

计算新类与其余各类之间的距离,得到新的距离矩阵D2

4.观察 D(G63,G7)= 32.4最小

故将G3与G7聚为一类,记为G8.

计算新类与其余各类之间的距离,得到新的距离矩阵D3

5.最后将G8与G6聚为一类,记为G9

6.该聚类的谱系图


其它系统聚类法

(1)组间平均连接系统聚类法
(2)重心系统聚类法
(3)组内平均连接系统聚类法

注:这些方法的差别就是在计算新类与其余各类间的距离,
如需学习详细内容,可参考多元统计分析相关书籍。

参考教材:《多元统计分析》,何晓群,中国人民大学出版社,2008.
《多元统计分析》,于秀林,中国统计出版社,2006.


聚类分析需要注意的问题

(1)对于一个实际问题要根据分类的目的来选取指标,指标选取的不同分类结果一般也不同。
(2)样品间距离定义方式的不同,聚类结果一般也不同。
(3)聚类方法的不同,聚类结果一般也不同(尤其是样品特别多的时候)。最好能通过各种方法找出其中的共性。
(4)要注意指标的量纲,量纲差别太大会导致聚类结果不合理。
(5)聚类分析的结果可能不令人满意,因为我们所做的是一个数学的处理,对于结果我们要找到一个合理的解释。


系统聚类法的Spss实现

1.录入数据

2.选择方法

3.统计量和绘制选项

4.方法和保存选项

总结

知识点较多,但是一通百通,具体大家可以参考于晶贤老师的具体内容。

ヾ( ̄▽ ̄)Bye~Bye~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/337443.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试|快速、可靠的JavaScript依赖管理工具——yarn

简介 Yarn是一个由Facebook于2016年推出的JavaScript软件包管理器。它的目标是解决npm(Node.js的默认软件包管理器)在性能和可靠性方面的一些问题。Yarn旨在提供更快、更安全、更稳定的依赖项安装过程,使JavaScript开发人员能够更轻松地管理…

【STM32】HAL库的RCC复位状态判断及软件复位

【STM32】HAL库的RCC复位状态判断及软件复位 在实际开发中 有时候会遇到复位状态不同 导致结果不同的情况 比如在上电复位时 电压不稳定 可能导致一些外部芯片无法正常工作 从而导致进行了错误的操作流程 所以 可以在程序运行后 加一个复位状态判断 用来检测是否正常复位 否则…

Python 编写不同时间格式的函数

该代码是一个时间相关的功能模块,提供了一些获取当前时间的函数。 Report_time() 函数返回当前时间的格式化字符串,例如 "20240110114512"。Y_M_D_h_m_s_time() 函数返回当前时间的年、月、日、时、分、秒的元组格式。Y_M_D_h_m_s() 函数返回…

搬运5款知名度不高,但十分好用的软件

​ 其实有许多工具,知名度不高,用的人也很少,不过并不代表它们不好用,小编励志做一个合格的搬运工,让大家都能用上好用的软件。 1.文本比较——Diffchecker ​ Diffchecker是一款在线文本比较工具,可以找…

【Vue3】2-4 : 声明式渲染及响应式数据实现原理

本书目录:点击进入 一、声明式渲染 1.1 什么是JS表达式:能够进行赋值的操作 ▶ 正确 ▶ 错误示例 二、示例:2秒后,页面中 message 由 hello world 变成 hi vue ▶ 效果 三、原理:利用ES6的Proxy对象对底层进…

zippo打火机激光打标机

激光打标技术是一种高精度的加工方式,能够在各种材料表面进行精细的打标,包括金属、塑料、玻璃等。随着科技的不断进步,激光打标技术的应用范围越来越广泛,特别是在制造行业,已经成为一种重要的加工手段。 Zippo打火机…

设计与实现基于Java+MySQL的模拟银行ATM操作系统

课题背景 随着现代经济的发展,电子支付和自动化银行服务已成为人们生活中不可或缺的一部分。自动取款机(ATM)作为一种常见的自助服务设备,使用户能够方便地进行资金的存取、查询余额、转账等操作,而无需到银行柜台。 …

如何利用大语言模型(LLM)打造定制化的Embedding模型

一、前言 在探索大语言模型(LLM)应用的新架构时,知名投资公司 Andreessen Horowitz 提出了一个观点:向量数据库是预处理流程中系统层面上最关键的部分。它能够高效地存储、比较和检索高达数十亿个嵌入(也就是向量&…

地图移动逻辑

主要的一些问题 0. 可能会很久没收到,,或者一下子同时受到很多个同步的包 关于坐标滞后导致的一些游戏逻辑问题,比如攻击命中的判定问题等,一般是以服务器数据为判定依据,逻辑判定还是以服务器为主,客户端主要做表现。 1. 插值 关于坐标上报频率,我采取的是每100ms 或…

JS栈和堆:数据是如何存储的

JS栈和堆:数据是如何存储的 背景JavaScript 是什么类型的语言JavaScript 的数据类型内存空间栈空间和堆空间再谈闭包 背景 JS有多种数据类型:数字型,字符串型,数组型等,虽然 JavaScript 并不需要直接去管理内存&#…

Windows 2012 R2 单网卡安装 PPTPVP*

环境 1、服务器:Windows Server 2012 R2(虚拟机) 内网IP:10.3.0.233 2、客户端:Windows 11 需求:当客户端通过VPN连接后,只有当访问 10.3.0.0 网段的数据包才走 VPN 通道后,其它…

python 计数器

这个Python脚本定义了一个名为new_counter()的函数,它读取系统时间并将其与存储在文件中的时间进行比较。然后根据比较结果更新存储在另一个文件中的计数器值。如果系统时间与存储的时间匹配,则计数器值增加1。如果系统时间与存储的时间不匹配&#xff0…