使用Julia语言和R语言实现K-均值

K-均值算法基础

  K-均值聚类算法属于一种无监督学习的方法,通过迭代的方式将数据划分为K个不重叠的子集(簇),每个子集由其内部数据点的平均值来表示。计算方法大体如下:

1.初始化簇中心

选择K个数据点作为初始的簇中心,簇中心可以随机选择的,也可以基于某种启发式方法选择,初始簇中心的选择对算法的最终结果有很大影响,不同的初始选择可能会导致完全不同的聚类结果

2.计算欧几里得距离

对于数据集中的每个点x_{i},计算它到各个簇中心\mu _j的距离d_{ij},通常使用欧几里得距离来计算。欧几里得距离衡量了数据点在多维空间中的实际距离,在K-均值算法中,数据点被分配给距离其最近的簇中心所在的簇。

d_{ij} = \sqrt{(x_i - \mu_j)^T(x_i - \mu_j)}

3.分配数据点

根据计算出的距离,将数据点分配给最近的簇。对于每个数据点x_i,找到距离它最近的簇中心\mu_{j^*},并将其分配给该簇。

4.更新簇中心

重新计算每个簇中所有数据点的平均值,并将该平均值设置为新的簇中心。对于每个簇C_j,新的簇中心\mu_j'计算如下:

5.终止迭代

重复步骤2、3和4,直到簇中心不再发生显著变化,或者达到预定的迭代次数。迭代终止条件可以表示为:

R语言数据集iris 

iris 数据集是 R 语言的内置数据集,其中包含了 3 种不同类型的鸢尾花(Iris flower)的观测数据,每种鸢尾花有 50 个样本,总共有 150 个样本。每个样本都包含了 4 个关于花萼(sepal)和花瓣(petal)的测量数据,以及鸢尾花的种类信息。

iris 数据集中的每个样本都包含以下 4 个数值型特征:

  1. Sepal.Length(花萼长度,单位是厘米)
  2. Sepal.Width(花萼宽度,单位是厘米)
  3. Petal.Length(花瓣长度,单位是厘米)
  4. Petal.Width(花瓣宽度,单位是厘米)

此外还有一个分类变量 Species,表示鸢尾花的种类,包含三个水平:setosaversicolor 和 virginica,分别对应山鸢尾、杂色鸢尾和维吉尼亚鸢尾。

在RStudio里可以输入 iris 来查看这个数据集的内容。

iris数据集内容:

Julia语言实现

  先进入Julia REPL导入需要的Julia包:

] # 进入包管理模式
add RDatasets # R语言的数据集
add DataFrames # 数据处理包
add Clustering # 提供 K-均值 功能包  
add Gadfly #绘图包

Julia语言实现K-均值代码:

using RDatasets  
using DataFrames  
using Clustering  
using Gadfly  # 使用的R语言的iris 数据集  
iris = dataset("datasets", "iris")  # 提取数据集的前四列作为特征矩阵,使用Matrix()函数把DataFrame的子集进行矩阵转换  
features = Matrix(iris[:, 1:4])# 执行 K-means 聚类, 分成 3 个簇
k = 3 
results = kmeans(features, k)  # 提取聚类分配结果  
assignments = results.assignments  plot = Gadfly.plot(iris, x=:SepalLength, y=:SepalWidth, color=assignments, Geom.point)    
display(plot)

 代码运行后生成HTML图像

  

教材中旧版本代码 

# GGboy版本再次之上增加了数据集转换
using RDatasets
using Clustering
using Gadflymydata1 = dataset("datasets", "iris")
myf = convert(Array, mydata1[:,1:4])
myl = convert(Array, mydata1[:,5])x = initseeds(:rand, convert(Matrix, myf'), 3)myres = kmeans(myf, 3)
Gadfly.plot(mydata1, x = :PetalLength, y = PetalWidth, color = myres.assignments,Geom.point)

R语言实现

先导入 ggplot2包用于绘图

install.packages("ggplot2")

R语言实现K-均值代码: 

library(ggplot2)  data(iris) # 提取前四列特征矩阵
features <- iris[, 1:4]  
k <- 3  # 执行 K-means 聚类, 分成 3 个簇
set.seed(123) # 设置随机种子以获得可重复的结果  
results <- kmeans(features, centers = k)  iris$cluster <- as.factor(results$cluster)  ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = cluster)) +  geom_point(size = 3, alpha = 0.8) +  theme_minimal() +  labs(title = "K-means Clustering",  x = "Sepal Length",  y = "Sepal Width",  color = "Cluster")

生成图像:
 

 Markdown版本计算公式及说明

# K-均值算法公式## 1. 初始化簇中心选择K个数据点作为初始的簇中心(质心)。这些点可以是随机选择的,也可以是基于某种启发式方法选择的。初始簇中心的选择对算法的最终结果有很大影响。不同的初始选择可能会导致完全不同的聚类结果。因此,在实际应用中,通常会多次运行算法并使用不同的初始簇中心,然后选择其中最好的结果。## 2. 计算欧几里得距离对于数据集中的每个点\(x_i\),计算它到各个簇中心\(\mu_j\)的距离\(d_{ij}\)。通常使用欧几里得距离来计算。\[d_{ij} = \sqrt{(x_i - \mu_j)^T(x_i - \mu_j)}\]欧几里得距离是最常用的距离度量方法之一,它衡量了数据点在多维空间中的实际距离。在K-均值算法中,数据点被分配给距离其最近的簇中心所在的簇。## 3. 分配数据点根据计算出的距离,将数据点分配给最近的簇。对于每个数据点\(x_i\),找到距离它最近的簇中心\(\mu_{j^*}\),并将其分配给该簇。\[j^* = \arg\min_{j=1,2,...,K} d_{ij}\]这一步是根据距离度量将数据点划分到不同的簇中。每个数据点都被分配给距离其最近的簇中心所在的簇。这样,数据集就被划分成了K个不重叠的子集。## 4. 更新簇中心重新计算每个簇中所有数据点的平均值,并将该平均值设置为新的簇中心。对于每个簇\(C_j\),新的簇中心\(\mu_j'\)计算如下:\[\mu_j' = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i\]这一步是更新簇中心的过程。通过计算每个簇中所有数据点的平均值来得到新的簇中心。这些新的簇中心将用于下一轮的迭代计算中。## 5. 终止迭代重复步骤2、3和4,直到簇中心不再发生显著变化,或者达到预定的迭代次数。迭代终止条件可以表示为:\[\|\mu_j' - \mu_j\| < \epsilon\]其中,\(\epsilon\)是一个很小的正数,表示簇中心变化的阈值。当簇中心的变化小于该阈值时,算法停止迭代。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/524935.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++学习笔记:AVL树

AVL树 什么是AVL树?AVL树节点的定义AVL树的插入平衡因子调整旋转调整左旋转右旋转左右双旋右左双旋 AVL树完整代码实现 什么是AVL树? AVL是1962年,两位俄罗斯数学家G.M.Adelson-Velskii和E.M.Landis 为了解决如果数据有序或接近有序二叉搜索树将退化为单支树&#xff0c;查找…

物流分拣漫LiDAR反射板

激光雷达漫反射板是物流分拣中不可或缺的一种设备&#xff0c;它在物流分拣过程中发挥着重要的作用。漫反射板的主要功能是反射光线&#xff0c;使得光线能够在分拣区域内均匀分布&#xff0c;从而提高分拣设备的识别精度和效率。 物流分拣是现代物流系统中非常关键的一环&…

HarmonyOS NEXT应用开发之MpChart图表实现案例

介绍 MpChart是一个包含各种类型图表的图表库&#xff0c;主要用于业务数据汇总&#xff0c;例如销售数据走势图&#xff0c;股价走势图等场景中使用&#xff0c;方便开发者快速实现图表UI。本示例主要介绍如何使用三方库MpChart实现柱状图UI效果。如堆叠数据类型显示&#xf…

C#实现快速排序算法

C#实现快速排序算法 以下是C#中的快速排序算法实现示例&#xff1a; using System;class QuickSort {// 快速排序入口函数public static void Sort(int[] array){QuickSortRecursive(array, 0, array.Length - 1);}// 递归函数实现快速排序private static void QuickSortRecu…

赶紧来学Python回调函数

在Python中&#xff0c;回调函数是一种非常重要的编程概念&#xff0c;它允许我们将一个函数作为参数传递给另一个函数&#xff0c;并在需要时由另一个函数调用。回调函数的使用可以使代码更加灵活和可重用&#xff0c;尤其在异步编程、事件驱动编程中非常常用。 1.普通函数调…

读已提交隔离级别下竟然有间隙锁

业务背景 广告主痛点的为进行一次全媒体联合投放&#xff0c;若投放10个媒体&#xff0c;需要制作和上传10个创意、50张不同尺寸和出血区要求的图片和视频素材、近100个元素&#xff0c;投放成本极高。这也是制约部分用户使用新产品投放的原因。 因此进行升级。以三个创意为例…

Python匿名函数有知道的吗?

1.函数 按照函数是否有名字分为有名字的函数和匿名函数 匿名函数&#xff1a;定义函数时&#xff0c;不再使用def关键字声明函数&#xff0c;而是使用lambda表达式 匿名函数在需要执行简单的操作时非常有用&#xff0c;可以减少代码冗余 2.有名字的函数 def fn(n):return …

【ONE·基础算法 || 滑动窗口】

总言 主要内容&#xff1a;编程题举例&#xff0c;理解滑动窗口的思想。&#xff08;是什么&#xff1f;什么时候用&#xff1f;为什么能用&#xff1f;时间复杂度&#xff1f;如何写代码&#xff1f;&#xff09;       文章目录 总言1、滑动窗口2、长度最小的子数组&…

vue组件之间通信方式汇总

方式1&#xff1a;props和$emit props和$emit仅仅限制在父子组件中使用 1.props&#xff1a;父组件向子组件传递数据 1.1 代码展示 <template><div><!-- 这是父组件 --><div>父组件中的基本数据类型age的值是:{{this.age}}</div><div>…

Stable Diffusion WebUI 中英文双语插件(sd-webui-bilingual-localization)并解决了不生效的情况

本文收录于《AI绘画从入门到精通》专栏&#xff0c;专栏总目录&#xff1a;点这里。 大家好&#xff0c;我是水滴~~ 本文介绍一款中英文对照插件 sd-webui-bilingual-localization&#xff0c;该插件可以让你的 Stable Diffusion WebUI 界面同时显示中文和英文&#xff0c;让我…

DFS和BFS以及练习题目(未完待续)

DFS和BFS 温馨提示&#xff1a;学习dfs之前最好先了解一下递归的思想。 递归思想 斐波那契 题目分析 题目代码 import java.util.Scanner; public class Main{static long dp[]; public static void main(String[] args) {Scanner scanner new Scanner(System.in);int t…

拿捏算法的复杂度

目录 前言 一&#xff1a;算法的时间复杂度 1.定义 2.简单的算法可以数循环的次数&#xff0c;其余需要经过计算得出表达式 3.记法&#xff1a;大O的渐近表示法 表示规则&#xff1a;对得出的时间复杂度的函数表达式&#xff0c;只关注最高阶&#xff0c;其余项和最高阶…