Python|使用Missingno库可视化缺失值(NaN)

在真实世界数据集的情况下,数据集中的某些值丢失是非常常见的。我们将这些缺失值表示为NaN(非数字)值。但是要构建一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些插补技术来用一些可能的值替换NaN值。但在此之前,我们需要很好地理解NaN值在数据集中的分布情况。

Missingno库提供了一种非常好的方式来可视化NaN值的分布。Missingno是一个Python库,与Pandas兼容。

安装库

pip install missingno

示例

# Program to visualize missing values in dataset # Importing the libraries 
import pandas as pd 
import missingno as msno # Loading the dataset 
df = pd.read_csv("kamyr-digester.csv") # Visualize missing values as a matrix 
msno.matrix(df) 

输出
在这里插入图片描述
使用这个矩阵,您可以非常快速地找到数据集中的缺失模式。在我们的示例中,列AAWhiteSt-4和SulphidityL-4具有类似的缺失值模式,而UCZAA显示不同的模式。

条形图

# Program to visualize missing values in dataset # Importing the libraries 
import pandas as pd 
import missingno as msno # Loading the dataset 
df = pd.read_csv("kamyr-digester.csv") # Visualize the number of missing 
# values as a bar chart 
msno.bar(df) 

输出
在这里插入图片描述
这个条形图让你了解每列中有多少缺失值。在我们的示例中,AAWhiteSt-4和SulphidityL-4包含最多的缺失值,其次是UCZAA。

热力图

# Program to visualize missing values in dataset # Importing the libraries 
import pandas as pd 
import missingno as msno # Loading the dataset 
df = pd.read_csv("kamyr-digester.csv") # Visualize the correlation between the number of 
# missing values in different columns as a heatmap 
msno.heatmap(df) 

输出
在这里插入图片描述
热图显示每2列之间缺失的相关性。在我们的例子中,AAWhiteSt-4和SulphidityL-4之间的相关性为1,这意味着如果它们中的一个存在,那么另一个也存在。

接近-1的值意味着如果一个变量出现,则另一个变量很可能缺失。
接近0的值意味着两个变量的缺失值的出现之间没有相关性。
接近1的值意味着如果一个变量出现,则另一个变量很可能存在。

参考:https://github.com/ResidentMario/missingno

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/324983.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言编译器(C语言编程软件)完全攻略(第二十六部分:C-Free使用教程(使用C-Free编写C语言程序))

介绍常用C语言编译器的安装、配置和使用。 二十六、C-Free使用教程(使用C-Free编写C语言程序) 1、安装C-Free 5.0 C-Free 是一款国产的Windows下的C/C IDE,最新版本是 5.0,整个软件才 14M,非常轻巧,安装…

【ARMv8架构系统安装PySide2】

ARMv8架构系统安装PySide2 Step1. 下载Qt资源包Step2. 配置和安装Qt5Step3. 检查Qt-5.15.2安装情况Step4. 安装PySide2所需的依赖库Step5. 下载和配置PySide2Step6. 检验PySide2是否安装成功 Step1. 下载Qt资源包 if you need the whole Qt5 (~900MB): wget http://master.qt…

Unity之键盘鼠标的监控

小编最近在玩大表哥2,通过 W、A、S、D 来移动亚瑟,鼠标左键来不吃牛肉 我们都知道玩家通过按键鼠标来控制游戏人物做出相应的行为动作,那在Unity引擎里是怎么知道玩家是如何操作的呢?本篇来介绍Unity是怎样监控键盘和鼠标的。 首先…

vue2 +Html + css 实现房间状态图,酒店前台入住管理系统的设计与开发

一、需求分析 酒店管理系统是指一种可以提高酒店管理效率的软件或平台。其面向酒店前台工作人员和酒店管理员,界面美观大方、操作方便。系统强化以客源为中心的信息完整性、长久性、可操作性,突出以预订、房源、房价等对营销具有影响力的信息处理。 系统…

项目整合积木报表-设计页面

项目整合积木报表-设计页面 <template><div><iframe id"dome" :srcsrc ></iframe></div> </template><script>export default {data(){return{src:configSrc.src"/jmreport/view/836138868821839872"}}} </…

Apache Commons Email在邮件发送中的应用

第1章&#xff1a;简介 大家好&#xff0c;我是小黑&#xff0c;今天咱们聊聊Apache Commons Email这个库&#xff0c;它在发送邮件方面可谓是小而美的利器。Apache Commons Email基于JavaMail API&#xff0c;但它提供了更简洁、更易用的接口&#xff0c;让咱们在处理电子邮件…

B059-权限管理系统01

目录 知识点介绍项目演示项目搭建动态菜单查询分析(权限表分析)权限系统表分析角色模块pageInfopageHelper实现前端动态分页高级查询新增与修改删除角色 分配权限-表分析角色授权数据-一级和二级权限查询 知识点介绍 项目演示 准备数据库 准备工程auth_new tips&#xff1a;…

Jenkins接口调用

Jenkins是好用&#xff0c;但是接口文档写的稀烂 1、授权&#xff0c;Jenkins不推荐使用创建单个任务时创建的token&#xff0c;推荐这个用户下的创建user token。 点击自己账号信息&#xff0c;即可创建token。 2、postman选择basic auth&#xff0c;输入账号密码&#xff0…

高并发如何保证接口的幂等性?

前言 接口幂等性问题&#xff0c;对于开发人员来说&#xff0c;是一个跟语言无关的公共问题。本文分享了一些解决这类问题非常实用的办法&#xff0c;绝大部分内容我在项目中实践过的&#xff0c;给有需要的小伙伴一个参考。 不知道你有没有遇到过这些场景&#xff1a; 有时我…

LLM增强LLM;通过预测上下文来提高文生图质量;Spikformer V2;同时执行刚性和非刚性编辑的通用图像编辑框架

文章首发于公众号&#xff1a;机器感知 LLM增强LLM&#xff1b;通过预测上下文来提高文生图质量&#xff1b;Spikformer V2&#xff1b;同时执行刚性和非刚性编辑的通用图像编辑框架 LLM Augmented LLMs: Expanding Capabilities through Composition 本文研究了如何高效地组…

STM32F4 IAP升级 Bootloader程序+上位机下载程序源码

目录 一、硬件设计 二、软件设计 三、上位机设计 四、IAP说明 五、下载验证 资料下载地址&#xff1a;STM32F4 IAP升级 Bootloader程序上位机下载程序源码 一、硬件设计 升级下载程序采用外部硬件触发的方式。 PB-20M4硬件板 预留一个IO口处理代码下载及更新的功能。 功…

数据采集:获取有价值信息的关键步骤

在当今数据驱动的时代&#xff0c;数据已成为企业、组织和个人做出明智决策的重要依据。而数据采集作为数据分析和应用的第一步&#xff0c;其重要性不言而喻。本文将探讨数据采集的概念意义、方法工具、面临的挑战和应对策略以及注意事项。 一、数据采集的定义和重要性 &…