数据分析-Pandas如何观测数据的中心趋势度

数据分析-Pandas如何观测数据的中心趋势度

数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律?

数据表,时间序列数据在数据分析建模中很常见,例如天气预报,空气状态监测,股票交易等金融场景。数据分析过程中重新调整,重塑数据表是很重要的技巧,此处选择Titanic数据,以及巴黎、伦敦欧洲城市空气质量监测 N O 2 NO_2 NO2数据作为样例。

数据分析

数据分析-Pandas如何转换产生新列

数据分析-Pandas如何统计数据概况

数据分析-Pandas如何轻松处理时间序列数据

数据分析-Pandas如何选择数据子集

数据分析-Pandas如何重塑数据表-CSDN博客

本文用到的样例数据:

Titanic数据

空气质量监测 N O 2 NO_2 NO2数据

样例代码:

源代码参考 Pandas如何重塑数据表

源代码参考 python数据分析-数据表读写到pandas

导入关键模块

import pandas as pd
import numpy as np
import matplotlib.pyplot as pltplt.close("all")

在pandas数据分析中,了解观察数据的中心趋势度量是非常重要的。中心趋势度量通常用来描述数据集的平均水平或集中位置。然而,单个的中心趋势度量,并不能重复描述数据的可变范围。

bootstrap_plot可以理解,观察数据的中心趋势度量的可变性。

最简bootstrap图画法

pandas画Auto correlation图方法最简单,只要一句语句搞定。

直接使用 series,autocorrelation_plot函数即可。

from pandas.plotting import bootstrap_plotdata = pd.Series(np.random.rand(1000))bootstrap_plot(data, size=50, samples=500, color="green");plt.show()
plt.close("all")

在这里插入图片描述

Bootstrap Sampling:是一种从数据集中重复抽取样本数据并进行替换以估计总体参数的方法。它用于确定总体的各种参数。

Bootstrap 图:它是一种图形方法,用于测量总体的任何所需统计特征的不确定性。它是置信区间的替代。 (也是一种用于计算统计量的数学方法)。

通常,可以使用置信区间以数学方式计算总体统计量的不确定性。然而,在许多情况下,推导出的不确定性公式在数学上是难以处理的。在这种情况下,我们使用 Bootstrap 图。

假设在一个公园里有 5000 人,需要找到整个人口的平均体重。测量每个人的体重然后取平均值是不可行的。

我们所做的是,从人群中随机抽取 5 个人为一组,并找出其均值。做同样的过程 8-10 次。这样,可以更有效地很好地估计总体的平均权重。

让我们考虑一个示例并了解 Bootstrap 图,如何更轻松地从大量人口中获取关键信息。假设有 3000 个随机生成的统一数的样本数据。取出 30 个数字的子样本并找到它的平均值。对另一个随机子样本再次执行此操作,依此类推。

绘制了上述获得的信息的引导图,只需查看它,就可以轻松地对所有 3000 个数字的均值进行很好的估计。可以从引导图中获得其他各种有用的信息,例如:

  • 哪个子样本的方差最低,或
  • 哪个子样本创建最窄的置信区间等。

以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。

后面介绍下其他的展示形式。

觉得有用 收藏 收藏 收藏

点个赞 点个赞 点个赞

End

GPT专栏文章:

GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

大模型查询工具助手之股票免费查询接口

GPT实战系列-简单聊聊LangChain

GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)

GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)

GPT实战系列-ChatGLM2模型的微调训练参数解读

GPT实战系列-如何用自己数据微调ChatGLM2模型训练

GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案

GPT实战系列-Baichuan2本地化部署实战方案

GPT实战系列-Baichuan2等大模型的计算精度与量化

GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF

GPT实战系列-探究GPT等大模型的文本生成-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/543470.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

公众号留言功能恢复了,你的开通了吗?

了解公众号的人都知道,腾讯在2018年3月宣布暂停新注册公众号的留言功能,这之后注册的公众号都不具备留言功能。 这成了很多号主运营人的一块心病,也包括我。 没有留言,就好似一个人玩单机游戏,无法与读者互动&#xff…

柚见第十二期(随机匹配)

随机匹配 目的 为了帮大家更快地发现和自己兴趣相同的朋友 问题 匹配 1 个还是匹配多个? 答:匹配多个,并且按照匹配的相似度从高到低排序 怎么匹配?(根据什么匹配) 答:标签 tags 还可以根据 us…

经典机器学习模型(一)感知机模型

经典机器学习模型(一)感知机模型 感知机可以说是一个相当重要的机器学习基础模型,是神经网络和支持向量机的基础。 感知机是一个二分类的线性分类模型,之所以说是线性,是因为它的模型是线性形式的。 从《统计学习方法》中,我们…

【蓝桥杯】线段树

一.线段树 1.定义: 线段树是算法竞赛中常用的用来维护 区间信息 的数据结构。 线段树可以在O(logN) 的时间复杂度内实现单点修改、区间修改、区间查询(区间求和,求区间最大值,求区间最小值)等操作。 2.结构&#x…

【论文阅读】Improved Denoising Diffusion Probabilistic Models

Improved Denoising Diffusion Probabilistic Models 文章目录 Improved Denoising Diffusion Probabilistic Models概述Improving the Log-likelihoodLearning ∑ θ ( x t , t ) \sum_{\theta}(x_{t}, t) ∑θ​(xt​,t)Improving the Noise ScheduleReducing Gradient Nois…

基于Pnpm + Turborepo + QianKun的微前端+Monorepo实践

基于Pnpm Turborepo QianKun的微前端Monorepo实践 背景 微前端一般都会涉及多个代码库,很多时候要一个一个代码库地去开发维护和运行,很不方便,这种时候引入Monorepo搭配微前端就能很好地解决这种问题,一个代码库就可以完成整…

Spring Cloud Alibaba微服务从入门到进阶(三)(Spring Cloud Alibaba)

Spring Cloud Alibaba是spring Cloud的子项目 Spring Cloud Alibaba的主要组件(红框内是开源的) Spring Cloud是快速构建分布式系统的工具集, Spring Cloud提供了很多分布式功能 Spring Cloud常用子项目 项目整合 Spring Cloud Alibaba …

友塔游戏测试开发笔面经验

题目一 给定任意非负整数M,判断其能否表达为 M 2 ^a 2 ^b(a和b为非负整数),若可以输出a和b,若不能输出-1; 例如: 输入:6 输出: “1 2” 分析: void findAB(int M){} 为解决问题的主函数 …

优选算法[1]

目录 1.双指针; 2.滑动窗口; 3.二分查找; 4.前缀和; 1.双指针; 包括对撞指针和快慢指针(一般用来循环); 题目类型:移动零,复写零,快乐数,盛…

【每日力扣】235. 二叉搜索树的最近公共祖先与39. 组合总和问题描述

🔥 个人主页: 黑洞晓威 😀你不必等到非常厉害,才敢开始,你需要开始,才会变的非常厉害。 235. 二叉搜索树的最近公共祖先 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义…

Python中类方法和静态方法的区别你知道吗?

​1.类方法 通过 classmethod 装饰器修饰的方法就是类方法 类方法可以通过类名或对象名调用,但是一般情况下使用类名调用(节省内存) 类方法中没有self.在类方法中不可以使用其它对象的属性和方法 类方法中一般会有一个参数cls,…

Crc冗余校验码设计

串行电路的位置,有异或门的地方是1(生成多项式) 简单的来说,如果最高位Q4 为0 的话,那么直接和 0 进行异或的话,实现的也是自己本身,直接左移就可以了 如果最高是1的话,那么就要和生…