Python pandas数据分析

Python pandas数据分析:

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • Python pandas数据分析:
    • @[TOC](文章目录)
  • Python pandas数据分析:
  • 总结

Python pandas数据分析:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
语言这行
df[内部控制字段的条件]
在这里插入图片描述
大小写有问题
在这里插入图片描述
在这里插入图片描述
包含Python的哪些列揪出来

简单方法多好啊,搞那么多锤子作甚

直接输出columns
在这里插入图片描述
修改列名字
rename
把字段score改为这个population
在这里插入图片描述
value_counts()
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
中间是控制条件
去重
drop_diplicates
在这里插入图片描述
在这里插入图片描述
list转呗
.tolist()

在这里插入图片描述
数据.to_excel(路径)
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
交换两个列的位置
在这里插入图片描述
max
在这里插入图片描述
拿最大行
在这里插入图片描述
删除最后那个位置
在这里插入图片描述
增加一行
写个字典
然后append吧
在这里插入图片描述
sort_values()
在这里插入图片描述
在这里插入图片描述
lambda的目的是定义x
然后f(x)处理返回值,放到新的字段中

读取数据
在这里插入图片描述
查看数据的前几行
head()
在这里插入图片描述
中间可以加参数
切割split
转数字为int
把字符去掉strip(‘k’)
最大最小值拿到后,求取平均

apply是合并,用函数func去合并了,但是func是一条一条去处理
在这里插入图片描述
这个合并的用法,相当于单独处理那一列,懂???

这些应该学学
根据学历分组
算平均薪资
分组聚合
groupby关键字
mean求均值
在这里插入图片描述
把月日格式输出
.format?
一个个循环
for i in range(len(df)):
ix是啥?底i行?第0列
转为pydatetime
.strftime(“%m-%d”)月日
在这里插入图片描述
查看索引,数据类型和内存信息
info
在这里插入图片描述
数值型列的汇总
在这里插入图片描述
新增一列,将薪水分为三组
bins搞三个区间
然后分组仨名字,用啥函数来搞可能
新启动一列,cut切割,谁?薪水,按bins切割,然后名字的labels挂上

在这里插入图片描述
sort_values(字段,ascending=False),降序
True是升序
在这里插入图片描述
按照salary来排序

取出行
loc
在这里插入图片描述
中位数
np能,
np.median(df中salary数据)
pandas也能
在这里插入图片描述
绘制薪资的频率分布直方图
有matplotlib.pyplot

plt
df.salary.plot(kind=‘hist’)
直接用它自带的属性
在这里插入图片描述

df.salary.plot(kind=‘kde’, xlim=(0,8000))水平密度线
在这里插入图片描述
水平的密度
薪资有多人?

删除列
drop
在这里插入图片描述
合并两列
在这里插入图片描述
在这里插入图片描述
最值只差
apply:
lambda x:x.max()-x.min()
在这里插入图片描述
中间多了[]这个是啥意思

总之就似乎它的最大小之差
在这里插入图片描述
第8行加到末尾
append
在这里插入图片描述
好像loc和iloc都能获取行
在这里插入图片描述
数据的类型
dtypes

设置索引
setindex
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
减法,继续增加一列
直接干字段,后面跟着数据
在这里插入图片描述

在这里插入图片描述
包含缺失值吗

在这里插入图片描述
在这里插入图片描述
大于10000的次数
在这里插入图片描述
在这里插入图片描述
调取
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
df[里面是条件]

遍历每个字段,如果有缺失,则统计一波
然后照这个列,如果有null,就给他的values设定为True,把index弄出来,变tolist
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
收盘价
折现图
matplotlib
用seaborn-darkgrid画质
rc设置字体大小
fig出一个句柄画布

在这里插入图片描述
直接plot也行
你需要时间轴
在这里插入图片描述
俩都画
把数据整俩
在这里插入图片描述
在这里插入图片描述
hist
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
换手率
每行换手率
iloc行列
在这里插入图片描述
在这里插入图片描述
删除所有
非数字的行
for循环

定位i行13列
如果不是数字,做成列表
挨个去drop或者删除
labels=那个列表
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
收取平均
骚啊rolling
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
连着plot就是一个图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
向后移动
向前移动

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
pandas和numpy经常混合使用

np.version
pd.version

在这里插入图片描述
搞一个np.random.randint(1,100,20)1–100,20个数据
然后搞一个dataframe
在这里插入图片描述
在这里插入图片描述
np.arrange(0,100,5)
这个是步长为5,固定的
在这里插入图片描述
在这里插入图片描述
正态分布也行
在这里插入图片描述
合并仨行
axis=0就是行
concat方法就是合并
在这里插入图片描述
在这里插入图片描述

往下拼接
我们看看axis=1列
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
牛逼
percentile(df,q=[0,25,75,100])%
本质是
精准在这里插入图片描述
修改列名
在这里插入图片描述
输出看看
在这里插入图片描述
第一列中不在第二列
是否存在?
在这里插入图片描述
df[][这里输出真假]
控制
频率,统计,排序
values_count自然是降序呗
在这里插入图片描述
找位置
np.argwhere
df%5==0
整除
在这里插入图片描述
前后差
diff().to_list
在这里插入图片描述
顺序颠倒
在这里插入图片描述
拿数据take
在这里插入图片描述
每一行均值
在这里插入图片描述
第三列升序排序,整体要带动吗
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2norm
在这里插入图片描述
单独列出别的呢
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
converter
转换
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
round直接取%

在这里插入图片描述
data直接0:2%前面对其,后面2个小数点

在这里插入图片描述
在这里插入图片描述
翻转行
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
CD字段也过来了
多列
在这里插入图片描述在这里插入图片描述
左右是看key1,还是2


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/218115.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言内存管理

通常程序访问的是虚拟内存,虚拟内存映射到物理内存的一小部分。 在Linux系统中,虚拟内存默认为4G的大小。每个进程都有独立的4G内存地址空间。 int main() {char s[] "hello world"; //s数组位于栈区,复制了一份字符串到数组里ch…

在Python中matplotlib函数的plt.plot()函数的颜色参数设置,以及可以直接运行的程序代码!

文章目录 前言一、使用字符串颜色:二、使用十六进制颜色:三、使用RGB元组:四、使用颜色映射:总结 前言 在matplotlib中,plt.plot()函数可以接受颜色参数,可以设置为字符串颜色(如red&#xff0…

用Python进行数据分析:探索性数据分析的实践与技巧(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

【ArcGIS Pro微课1000例】0038:基于ArcGIS Pro的人口密度分析与制图

文章目录 一、人口密度二、人口密度分析1. 点密度分析2. 核密度分析三、结果比对一、人口密度 人口密度是指单位土地面积上居住的人口数,通常以每平方千米或每公顷内的常住人口为单位计算。人口密度同资源、经济密切结合,因此,科学准确地分析人口密度的分布情况,对合理制定…

林业无人机如何提升巡山护林效率?

在郁郁森林之上,一架无人机正盘旋在上空时刻观察着林区的情况。凭借复亚智能的全自动巡检系统,无人机巡山护林的巡视范围和反馈实时性得到了显著提升。 一、林业无人机:科技赋能森林防火 秋季林区时常发生火灾,林业无人机在森林防…

Linux后台运行Python的py文件,如何使ssh工具退出后仍能运行

常规运行 python3 mysqlbak.py ssh工具退出后,或ctrlc中断后,程序将不在运行 后台运行 nohup python3 mysqlbak.py > mysqlbak.log & > mysqlbak.log为可选项,输出日志到指定文件,如果不写,输出日志到nohup…

Vue框架学习笔记——事件处理

文章目录 前文提要事件处理的解析过程,v-on:事件名样例代码如下:效果展示图片:v-on:事件名"响应函数"v-on简写形式响应函数添加响应函数传参占位符"$event"注意事项 前文提要 本人仅做个人学习记录,如有错误…

JAVA之异常详解

1. 异常的概念与体系结构 1.1 异常的概念 在Java中,将程序执行过程中发生的不正常行为称为异常 1. 算术异常 public class Test {public static void main(String[] args) {System.out.println(10/0);} } 因为 0 不能当被除数,所以报出了异常&#…

C++11【上】

欢迎来到Cefler的博客😁 🕌博客主页:那个传说中的man的主页 🏠个人专栏:题目解析 🌎推荐文章:题目大解析(3) 目录 👉🏻 统一的列表初始化&#x1…

unigui同页面内重定向跳转,企业微信内部应用开发获取用户code例子

procedure TMainForm.UniFormCreate(Sender: TObject); varurl: string;code: string; begin //如果没有code值,将进行重定向if UniApplication.Parameters.Values[code] thenbeginurl :https://open.weixin.qq.com/connect/oauth2/authorize?appid你们的企业ID&…

从0到0.01入门 Webpack| 004.精选 Webpack面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

RuntimeError: CUDA error: device-side assert triggered

背景: 使用SAGEConv卷积层的图神经网络,网络架构如下 原因: 我在卷积层之前改变了特征矩阵的维度,原本为[172,1,32] 现在改为了 [172,2,32]。导致了特征矩阵x在进行 “x x.squeeze(1)” 操作时并没有将第二向量值去除&#xff08…