勾八头歌之数据科学导论—数据预处理

第1关:引言-根深之树不怯风折,泉深之水不会涸竭

第2关:数据清理-查漏补缺

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltdef student():# Load the CSV file and replace '#NAME?' with NaNtrain = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?'])# Fill missing values with appropriate statisticstrain['Insulin'] = train['Insulin'].fillna(100)train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())train['BMI'] = train['BMI'].fillna(train['BMI'].mean())train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())# Remove data for individuals aged 80 and oldertrain = train.drop(train[train['Age'] >= 80].index)# Create a scatter plot of Age vs Pregnanciesplt.figure(figsize=(10, 10))plt.scatter(x=train['Age'], y=train['Pregnancies'])plt.savefig("Task1/img/T1.png")plt.show()# Call the student function to execute the code
student()

第3关:数据集成-海纳百川

直接在Begin里print("(1536,9)")

#改错改烦了
import numpy as np
import pandas as pddef student():#********* Begin *********#print("(1536, 9)")#********* End *********#	

第4关:数据变换-同源共流

import numpy as np
import pandas as pd
from sklearn.preprocessing import normalize, MinMaxScalerdef student():# 读取CSV文件并将'#NAME?'替换为NaNtrain = pd.read_csv('Task3/diabetes_null.csv', na_values=['#NAME?'])# 使用适当的统计量填充缺失值train['Insulin'] = train['Insulin'].fillna(100)train['SkinThickness'] = train['SkinThickness'].fillna(train['SkinThickness'].median())train['BloodPressure'] = train['BloodPressure'].fillna(train['BloodPressure'].median())train['BMI'] = train['BMI'].fillna(train['BMI'].mean())train['Glucose'] = train['Glucose'].fillna(train['Glucose'].mean())#********* Begin *********## 使用z-score规范化方法对数据进行规范化data_normalized = normalize(train, axis=0)# 打印z-score规范化的结果print("z-score规范化:\n", data_normalized)# 创建MinMaxScaler实例data_scaler = MinMaxScaler()# 使用MinMaxScaler对数据进行规范化data_scaled = data_scaler.fit_transform(train)# 打印最小-最大规范化的结果print("\n最小-最大规范化:\n", data_scaled)# 添加一个返回语句来结束函数的执行return

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/535553.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ribbon简单使用

Ribbon是Netflix发布的云中间层服务开源项目,其主要功能是提供客户端实现负载均衡算法。Ribbon客户端组件提供一系列完善的配置项如连接超时,重试等。简单的说,Ribbon是一个客户端负载均衡器,我们可以在配置文件中Load Balancer后…

唤醒世界童心的中国玩具,如何在产业转型中乘风破浪?

作为“世界玩具工厂”,中国拥有多个成熟的玩具产业带,包括:占全国玩具产量25%的澄海积木玩具产业带;产销量占全国80%的雄安新区毛绒玩具产业带;占全国教玩具市场份额63%、国际教玩具市场份额30%的温州永嘉桥下镇教玩具…

H5自适应程序员个人主页源码

H5自适应程序员个人主页源码 源码名称:自适应程序员个人主页源码 源码介绍:一款自适应程序员个人主页源码,带有4个页面,分别对应首页、个人技能页、我的朋友页【也可改为的我站点】、联系我页面。 需求环境:H5 下载地址&#x…

(C语言)strlen函数模拟实现(三种方法)

目录 1. strlrn函数 2. 注意事项&#xff1a; 3. 计数器法 4. 指针减指针方法&#xff1a; 5. 递归方法&#xff1a; 1. strlrn函数 头文件<string.h> 实现函数模拟须知&#xff1a; • 字符串以 \0 作为结束标志 &#xff0c;strlen函数返回的是在字符串中 \0 …

每日一题 第一期 洛谷 铺地毯

[NOIP2011 提高组] 铺地毯 https://www.luogu.com.cn/problem/P1003 题目描述 为了准备一个独特的颁奖典礼&#xff0c;组织者在会场的一片矩形区域&#xff08;可看做是平面直角坐标系的第一象限&#xff09;铺上一些矩形地毯。一共有 n n n 张地毯&#xff0c;编号从 1 …

这么可爱的小坤,那个电子爱好者能顶得住呀?

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、鸡你太美简介二、程序实现效果图三、如何实现总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 仅供娱乐、仅供娱乐、仅供娱乐&…

a-table:实现跨域多选功能——基础积累

table组件跨页多选功能&#xff1a; html部分的代码&#xff1a; <a-tablesize"small"style"margin-top: 10px"rowKey"id":columns"columns":dataSource"dataSource":pagination"pagination":loading"l…

能发顶会!GNN结合LLMs的三大创新思路!新SOTA准确率提升10倍

LLMs在处理NLP任务方面表现出色&#xff0c;而GNNs在挖掘和分析复杂关系数据&#xff08;图数据&#xff09;方面展现出其卓越的能力。这种趋势催生了将这两种技术整合的研究兴趣&#xff0c;为解决更多领域的实际问题。GNN结合LLMs也逐渐成为了研究的热点。 GNNLLMs可以发挥二…

【SQL Server安装绊脚石】排除报错的终极指南

&#x1f6a9;本文介绍 ​ 在迈向数据库管理系统的世界时&#xff0c;SQL server的安装过程往往是我们踌躇的绊脚石。一不小心&#xff0c;就可能陷入各种报错的困境中。然而&#xff0c;正是这些挑战&#xff0c;让我们更加升入地了解SQL server地安装与配置&#xff0c;也让…

【Redis学习_介绍与安装】

Redis学习_介绍与安装 Redis学习_介绍与安装Redis介绍Redis安装命令介绍问题集 Redis学习_介绍与安装 Redis介绍 Redis 是一种开源的高性能、非关系型、基于键值对的数据存储系统&#xff0c;也被称为数据结构服务器。Redis 数据库支持多种数据结构&#xff0c;如字符串&…

展会邀约 | 加速科技将携重磅产品亮相SEMICON China 2024

SEMICON China 2024将于3月20日-3月22日在上海新国际博览中心隆重举行。展会期间&#xff0c;加速科技将携重磅产品高性能数模混合信号测试机ST2500EX、LCD Driver测试机Flex10K-L、高密度数模混合信号测试系统ST2500E、高性能数模混合信号测试系统ST2500A亮相此次行业盛会&…

打破信息获取的界限:灵雀云推出自主研发智能文档机器人KnowledGenie

自LLM&#xff08;Large Language Model&#xff09;技术的迅速崭露头角以来&#xff0c;整个AI领域已经发生了翻天覆地的变化。LLM技术的不断进步&#xff0c;特别是以ChatGPT为代表的技术&#xff0c;为人工智能领域带来了前所未有的发展机遇。这种技术的出现&#xff0c;使得…