数据分析基础之《numpy(6)—IO操作与数据处理》

了解即可,用panads

一、numpy读取

1、问题
大多数数据并不是我们自己构造的,而是存在文件当中,需要我们用工具获取
但是numpy其实并不适合用来读取和处理数据,因此我们这里了解相关API,以及numpy不方便的地方即可

2、np.genfromtxt(fname, dtype, comments, delimiter, ...)
说明:
fname:文件名,也可以是字符串、列表、StringIO对象、迭代器等,如果是文件名是 '.gz' or '.bz2',还可以自动解压处理
dtype:指定数据类型(不同类型需要指定)
delimiter:分隔符(比如一般使用",")

3、例子

id,value1,value2,value3
1,123,1.4,23
2,110,,10
3,,2.1,19
# numpy读取
data = np.genfromtxt(fname="test.csv", delimiter=",")data

但是有问题,第一行字符串没有读出来
numpy是运算工具,所以不支持读取字符串

二、如何处理缺失值

1、什么是缺失值
什么时候numpy中会出现nan:当我们读取本地的文件为float的时候,如果为空,就会出现nan。或者读取字符串也会出现nan

2、缺失值处理
那么,在一组数据中单纯的把nan替换为0,合适吗?会带来什么样的影响?
比如,全部替换为0后,替换之前的平均值如果大于0,替换之后的均值肯定会变小,所以更一般的方式是把缺失的数值替换为均值(或中值)或者直接删除有缺失值的一行

3、替换/插补法
求这一列的平均值或者中位数
也很麻烦,用pandas

4、如何删除有缺失值的那一行(列)
在pandas中介绍
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/319107.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于“Python”的核心知识点整理大全59

目录 19.3.2 将数据关联到用户 1. 修改模型Topic models.py 2. 确定当前有哪些用户 3. 迁移数据库 注意 19.3.3 只允许用户访问自己的主题 views.py 19.3.4 保护用户的主题 views.py views.py 19.3.6 将新主题关联到当前用户 views.py 往期快速传送门&#x1f44…

人工智能教程(四):概率论入门

目录 前言 TensorFlow 入门 SymPy 入门 概率论入门 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。 点击跳转到网站 在本系列的 上一篇文章 中,我们进一步讨论了矩阵和线性代数&#…

【42页动态规划学习笔记分享】动态规划核心原理详解及27道LeetCode相关经典题目汇总

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能AI、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推荐--…

QT上位机开发(数据库sqlite编程)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 编写软件的时候,如果用户的数据比较少,那么用json保存是非常方便的。但是一旦数据量大了之后,建议还是用数据库…

奋楫扬帆,奔赴新程 | 2023 年图扑大事记回顾,与您携手共迎 2024

2023.01 工信部公示了 2022 年度智能制造示范工厂揭榜单位和优秀场景名单。图扑软件和上海洲邦合作建设的宁波甬友数字孪生工厂被评为优秀场景,全国共有 369 个智能制造典型场景入选。 2023.01 在第十一届中国创新创业大赛全国赛(新一代信息技术&#…

【中小型企业网络实战案例 七】配置限速

相关学习文章: 【中小型企业网络实战案例 一】规划、需求和基本配置 【中小型企业网络实战案例 二】配置网络互连互通【中小型企业网络实战案例 三】配置DHCP动态分配地址 【中小型企业网络实战案例 四】配置OSPF动态路由协议【中小型企业网络实战案例 五】配置可…

Basis Pursuit ADMM

c笔记 ref. distr_opt_stat_learning_admm.html Basis pursuit is the equality-constrained minimization problem In ADMM form, basis pursuit can be written as The ADMM algorithm is then The x-update, which involves solving a linearly-constrained minimu…

大数据StarRocks(二) StarRocks集群部署

一、生产机器资源评估 1.梳理数据量,包括每天增量数据接入和全量数据接入 2.数据存储时间长度(1个月/3个月/半年/1年/三年等) 3.报表的SQL查询数量,SQL查询占用资源的统计,需要提前做好压测 4.压测可以采用官网提供的…

MySQL第三战:CRUD,函数1以及unionunion all

前言 在当今的数字化时代,数据库已经成为信息管理的重要工具。其中,MySQL作为一种流行的关系型数据库管理系统,已经广泛应用于各种业务场景。在本文中,我们将深入探讨MySQL中的核心概念,包括创建(Create&a…

ROS学习记录:在ROS中用C++实现获取激光雷达的数据

一、打开一个终端,输入cd ~/catkin_ws1,进入工作空间 二、输入source ./devel/setup.bash,将ROS工作空间的环境设置(setup)添加到当前终端会话中 三、输入roslaunch wpr_simulation wpb_simple.launch打开机器人仿真环…

【人工智能】百度智能云千帆AppBuilder,快速构建您的专属AI原生应用

大家好,我是全栈小5,欢迎来到《小5讲堂》,此序列是《人工智能》专栏文章。 这是2024年第5篇文章,此篇文章是进行人工智能相关的实践序列文章,博主能力有限,理解水平有限,若有不对之处望指正&…

聚道云软件连接器带给服装行业客户的业务革新

【客户介绍】 某服装制作企业,专注于设计和生产各类服饰。追求时尚与品质的完美结合,以满足不同消费者的需求。凭借丰富的行业经验,该企业不断创新,致力于提供优质的服装产品和服务。我们的目标是成为消费者心目中的首选品牌&…