阅读笔记-A Cluster Separation Measure

A Cluster Separation Measure(一种聚类分离测度

1.这篇论文要解决什么问题?要验证一个什么科学假设?

问题是确定数据中聚类的适当数量,解决这种问题的两种方法都取决于确定指数中相对较大的变化,而不是指数的最小化或最大化,因此,一般来说,需要人为解释和主观分析什么是参数中的“较大变化”。

两种方法:一种常用的技术依赖于针对多个簇绘制优化参数,并选择参数值发生较大变化的簇数作为最佳值。

第二种方法是分层的等级技术通常寻求组间融合的大变化。

2.这篇论文有哪些相关研究,这些研究是怎么分类的?有哪些研究员值得关注?

3、论文中提到的解决方案是什么,关键点在哪儿?提出了一种度量,它表示假设具有数据密度的聚类的相似性,该数据密度是距离聚类的向量特征的递减函数。该度量可用于推断数据分区的适当性,因此可用于比较数据的各种划分的相对适当性。该措施既不依赖于分析的聚类数,也不依赖于数据分区的方法,并且可以用于指导聚类搜索算法。提出了一个新的聚类参数该参数的最小化似乎表明数据集的自然分区

这个定义中,aki是向量ai的第k个分量,而ai是第i个聚类的质心。简单来说,质心是一个聚类中所有数据点的平均值向量。

举个例子来说明:假设我们有一个二维数据集,包含以下数据点:

(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)

现在我们将这些数据点分为两个聚类,第一个聚类包含前三个数据点,第二个聚类包含后两个数据点。

对于第一个聚类的质心,我们计算每个维度的平均值,即(1+3+5)/3 = 3和(2+4+6)/3 = 4。所以第一个聚类的质心是(3, 4)。

对于第二个聚类的质心,我们计算每个维度的平均值,即(7+9)/2 = 8和(8+10)/2 = 9。所以第二个聚类的质心是(8, 9)。

在这个例子中,aki表示第i个聚类的质心向量ai的第k个分量。

R的意义在于,它是每个聚类与其最相似聚类的相似性度量的系统范围平均值。因此,聚类的“最佳”选择将是使这种平均相似性最小化的聚类。

当p = 2时,Mij是质心之间的欧几里得距离如果q = 1,则Si成为聚类i中的向量到聚类i的质心的平均欧几里得距离。如果q = 2,则Si是聚类中的样本到相应聚类中心的距离的标准偏差。如果p = q = 2,则Rij是为聚类i和j计算的经典Fisher相似性度量的倒数。

4、论文中的实验是如何设计的?各个实验分别得到了什么结论?

图2(a)示出了改编自Ball和Hall的集群系统测试集的225个点的数据集。图2(b)的相关曲线图示出了对于q = 0.5、1.0、2.0和p = 2.0的最小20个K值的k的性能。如图2(b)所示,当K = 8时,R最小,当K = 9时,R值大约大10%。

图3(a)和3(b)显示了130个点的数据集及其相关的R图。对应于R的四个局部最小值的分区在图3(c)中指示。在K = 3、6、10和13处,R的局部最小值近似相等,这是由于13个小簇中的每一个的密度大致相等,而它们在大簇中的间隔近似相等。聚类分离度量表明相邻的小聚类与大聚类具有大致相同的相似性。

图4中110个数据点和相关的k图显示在图4(a)和图4(B),其中三个组分区被选择为最佳,由虚线指示。随后对分配给第三组的那些点进行分析。图4(c)中示出了相关的R曲线图,而图4(a)中的细虚线示出了指示为最佳的分离。值得注意的是,图4(c)中的最小R高于图4(b)中的最小R。如果不是这种情况,图4(a)中的聚类3将在全局数据集的最佳划分中被细分

图5中R是针对Fisher在一系列统计检验中使用的四维鸢尾数据计算的。四个测量的每一个50名成员的三个品种的花鸢尾Setosa,鸢尾Versicolor,和鸢尾Virginica。已知Iris Setosa可线性分离,其他两个鸢尾Virginica和鸢尾Versicolor有相当大的重叠。如图5所示,选择K = 2作为数据的最佳划分,而在K = 9和K = 17处发现R的局部最小值。

5、这篇论文到底有什么贡献?(三句话内说明)新在什么地方?

聚类分析通常是数据分析的第一步要求用户向分析系统提供参数值,例如最小可接受的聚类距离或最小可接受的标准偏差, “所有聚类算法的一个共同缺点是它们的性能高度依赖于用户设置的各种参数。事实上,“适当”的设置通常只能通过试验和错误的方法来确定。如果将其纳入聚类搜索算法中,这里提出的度量基本上克服了这一困难,因为它只需要用户指定p和q指数,这相当于只需要用户指定要使用的距离和分散度量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/295734.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多模态大模型:关于Better Captions那些事儿

Overview 一、ShareGPT4V1.1、Motivation1.2、ShareGPT4V数据集构建1.3、ShareGPT4V-7B模型 一、ShareGPT4V 题目: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions 机构:中科大,上海人工智能实验室 论文: https://arxiv.org/pdf…

Unity中获取时间戳、日期、时间、毫秒、秒以相互转换、自定义格式时间

Unity中获取时间戳、日期、时间、毫秒、秒以相互转换、自定义格式时间 介绍时间戳是什么什么时候用时间戳 获取时间获取当前时间获取时间戳日期转时间戳时间戳转日期将时间戳转换为多久之前星期自定义格式时间 总结 介绍 这里附带一个时间戳和时间转换的网址 时间戳是什么 时…

使用Ubuntu22+Minikube快速搭建K8S开发环境

安装Vmware 这一步,可以参考我的如下课程。 安装Ubuntu22 下载ISO镜像 这里我推荐从清华镜像源下载,速度会快非常多。 下载地址:https://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/22.04.3/ 如果你报名了我的这门视频课程&#xf…

软件工程期末复习

● 用例:借书 ●参与者:管理员,借阅者 ●操作流: ① 管理员进入图书借阅界面,用例开始。 ② 系统要求输入借阅者的借书证编码。 ③系统检验借书证编码,如果正确,则显示借阅者的信息。 A1:借书证编码有错。 A2: 如果该借…

【运维面试100问】(十一)淡淡I/O过程

本站以分享各种运维经验和运维所需要的技能为主 《python零基础入门》:python零基础入门学习 《python运维脚本》: python运维脚本实践 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8…

DFS与BFS算法总结

知识概览 DFS、BFS都可以对整个问题空间进行搜索,搜索的结构都是像一棵树。DFS会尽可能往深搜,当搜索到叶节点时就会回溯。而BFS每一次只会扩展一层。 DFS与BFS的区别: 搜索方式数据结构空间复杂度性质DFS栈O(h),其中h为搜索空间…

4.4【共享源】克隆实战开发之截屏(二)

三,显示器截图 screen_read_display() 函数则用于捕获显示器的屏幕截图。我们需要在特权上下文中工作,以便可以完全访问系统的显示属性。我们可以通过调用具有 SCREEN_DISPLAY_MANAGER_CONTEXT 上下文类型的 screen_create_context() 来创建特权上下文。进程必须具有 root 的…

simulinkveristandlabview联合仿真——模型导入搭建人机界面

目录 1.软件版本 2.搭建simulink仿真模型 编译错误 3.导入veristand并建立工程 4.veristand导入labview labview显示veristand工程数据 labview设置veristand工程数据 运行labview工程 1.软件版本 matlab2020a,veristand2020 R4,labview2020 SP…

Python入门学习篇(五)——列表字典

1 列表 1.1 定义 ①有序可重复的元素集合 ②可以存放不同类型的数据 ③个人理解:类似于java中的数组1.2 相关方法 1.2.1 获取列表长度 a 语法 len(列表名)b 示例代码 list2 [1, 2, "hello", 4] print(len(list2))c 运行结果 1.2.2 获取列表值 a 语法 列表名…

TLC549(8位A/D转换器)实现将输入的模拟电压显示到数码管上

代码: #include "reg51.h" #include "intrins.h" #define uchar unsigned char #define uint unsigned intsbit SDO P1^0; // 芯片的三个关键的输入数据端口,主要是靠外电压来提供的 sbit CS P1^1; sbit SCLK P1^2;sbit wei0 P…

lv13 操作系统、内核实现 1

目录 一、程序分类 二、计算机系统的层次结构 2.1 无操作系统的简单的两层结构 ​编辑 2.2 有操作系统的复杂的四层结构 三、 什么是操作系统 四、操作系统内核的实现模式 五、什么是设备驱动程序 一、程序分类 程序按其运行环境分为: 裸机程序:…

更改WiseAlign软件界面图标方法

更改WiseAlign软件界面图标方法 未替换时 首先将图片转换为BMP格式,在搜索栏处输入画图,点击打开画图工具 按住图标拖动到画布内,或是直接CtrlV将图标复制到画布内 点击文件,再点击另存为 保存类型选择“24位位图(*.bm…