MCM备赛笔记——PCA主成分分析法

Key Concept

主成分分析(PCA,Principal Component Analysis)是一种统计方法,它通过线性变换将多维数据变换到新的坐标系统中,使得这一数据的任何投影的第一大方差出现在第一个坐标(即第一个主成分)上,第二大方差出现在第二个坐标上,依次类推。

建模思路

  1. 数据准备与标准化

    • 收集多维数据集,并对其进行标准化处理,通常是减去均值,除以标准差,以保证每个特征维度对结果的贡献是可比的。这里借用了这里的数据来使用PCA进行主成分分析alifrmf/Country-Profiling-Using-PCA-and-Clustering: Unsupervised Machine Learning Analysis Using Clustering Model (github.com)
    • 将读取的数据转化为numpy数组(矩阵)并进行标准化,使数据落入N(0,1)区间
  2. 计算协方差矩阵

    • 计算标准化数据的协方差矩阵。协方差矩阵反映了数据各维度之间的相关性。因为我们读取的数据矩阵中,每行都表示一个国家,每列表示的是不同的特征。PCA要分析的是不同特征之间的相关性,所以我们要把这个矩阵转置之后再求协方差矩阵。
  3. 求解特征值和特征向量

    • 对协方差矩阵进行特征分解,求出其特征值和相应的特征向量。这里没有像之前层次分析法一样使用numpy的特征值分解方法,而是使用了scipy中的linalg来进行特征值计算
  4. 选择主成分

    • 将特征值从大到小排列
    • 计算特征向量的方差累积贡献率。如果前n个特征向量的方差贡献率达到了85%(或者其他界限),则可以选择使用这前n个特征向量作为我们的主成分
  5. 主成分分析

PCA还可以进一步用于聚类分析等操作,比如人脸识别这种.......

Key Concept Explanation PCA的核心思想是找到最能代表原始数据集的低维结构,通常用于数据预处理、数据压缩和特征提取。在许多实际应用中,数据集可能包含许多变量,而其中一些变量可能是相关的。PCA使我们能够识别出最重要的变量,即主成分,并且通过这些主成分来简化我们的数据集,同时保留数据集中的大部分信息。

PCA的优势在于它可以用较少的变量解释大部分数据的变异性,有助于去除噪声和冗余特征,同时可以在数据的可视化方面发挥重要作用。然而,PCA也有其局限性,比如它依赖于线性假设,对于非线性关系的数据可能无法有效地提取特征。此外,PCA对异常值非常敏感,可能会影响最终的降维结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/422699.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重磅来袭“2024粤港澳电子展”覆盖电子信息完整产业链

2024年4月份粤港澳地区将举办一场规模盛大的电子信息产业博览会。这场展会占地面积高达10万平米,设立了多个展馆,涵盖了智慧家庭、新型显示、高端半导体、信创、大数据与存储、国防军工、人工智能、绿色消费电子、基础元器件等行业热点主题。 CITE品牌创…

服务端实现微信小游戏登录

1 微信小程序用户登录及其流程 小程序可以通过微信官方提供的登录能力,便能方便的获取微信提供的用户身份标识,达到建立用户体系的作用。 官方文档提供了登录流程时序图,如下: 从上述的登录流程时序图中我们发现,这里总共涉及到三个概念。 第一个是小程序,小程序即我们…

【QT+QGIS跨平台编译】之二:【zlib+Qt跨平台编译】(一套代码、一套框架,跨平台编译)

文章目录 一、zlib介绍二、文件下载三、文件分析四、pro文件五、编译实践 一、zlib介绍 zlib是一套通用的解压缩开源库,提供了内存(in-memory)压缩和解压函数。zlib是一套通用的解压缩开源库,提供了内存(in-memory&am…

samba服务搭建,并将共享目录映射到windows

系统版本:centos7 1、centos 安装samba yum -y install samba 2、查看安装信息 rpm -qa |grep samba 3、设置开机自启动 systemctl enable smb.service systemctl enable nmb.service 4、设置samba服务器配置文件 sudo vi /etc/samba/smb.conf 注意&#…

java基础学习: 什么是泛型的类型擦除

文章目录 一、什么是泛型2、泛型编译前和编译后对比3、泛型的优点(1)提高了代码的复用性和可读性(2)提高了代码的安全性 二、泛型的定义1、泛型类2、泛型接口3、泛型方法 三、泛型通配符1、?和T有什么区别2、通配符的分…

Kong网关概述

介绍Kong网关 Kong Gateway是一个轻量级、快速且灵活的云原生API网关。API网关是一个反向代理,可以管理、配置和路由对API的请求。 Kong Gateway在任何RESTful API的前面运行,并且可以通过模块和插件进行扩展。它被设计用于在分散式架构中运行&#xf…

【webrtc】neteq测试工程

设置git代理 $ git config --global http.https://github.com.proxy socks5://127.0.0.1:7890 git config --global https.https://github.com.proxy socks5://127.0.0.1:7890导入cmake直接构建 win32 debug v143 编译opus Build started...

Linux部署nginx+appache动静分离

部署nginxappache动静分离 虚拟机配置到vm1网卡 地址192.168.1.100 重启网卡 关闭安全linux 关闭防火墙、 挂载磁盘 配置yum源 上传软件包 nginx和appache 配置appache服务 tar xf apr-1.6.2.tar.gz tar xf apr-util-1.6.0.tar.gz tar -xjf httpd-2.4.29.tar.bz2 mv a…

Kui: 一个用于 Kubernetes 的“混合”CLI/GUI 应用程序

众所周知,当涉及到管理服务器或 Kubernetes 集群之类的事情时,我们大多数人更喜欢使用我们心爱的终端而不是 GUI 工具。对于许多人来说,这就像驾驶一辆带有手动变速箱的汽车:简单、舒适、灵活且更可预测。Kui 是一个混合界面工具&…

大尺寸产品外径难实时测量?请看大直径测径仪系列!

在生产大口径螺旋焊管、无缝管材、直缝焊管等产品时,是否遇到过这样的问题,人工检测速度慢,精度低,易漏检,在线检测仪器又难以达到测量范围,或者价格过于昂贵。别急,我们的测径仪系列能为你解决…

java实现将集合数据导入excel表格之竖向

这里使用的是apache.poi,当然如果使用easyExcel也可以实现 括号是EasyExcel官网(EasyExcel官方文档 - 基于Java的Excel处理工具 | Easy Excel) 找到填充,都会有相对应的demo实列 下面是我写的apache.poi实现代码 public static vo…

Visual Studio 2022 成功配置QT5.12.10

目录 下载并安装Visual Studio 2022 Qt5.12.10下载 Qt5.12.10安装 Qt VS Tools for Visual Studio 2022下载 Visual Studio 2022配置 测试 下载并安装Visual Studio 2022 下载社区版并安装,这个比较快。 Qt5.12.10下载 官网下载很慢,还不如百度网…