《统计学简易速速上手小册》第1章:统计学基础(2024 最新版)

在这里插入图片描述

文章目录

  • 1.1 数据类型和数据收集
    • 1.1.1 基础知识
    • 1.1.2 主要案例:顾客满意度调查
    • 1.1.3 拓展案例 1:产品销售分析
    • 1.1.4 拓展案例 2:员工绩效评估
  • 1.2 描述性统计学
    • 1.2.1 基础知识
    • 1.2.2 主要案例:销售数据分析
    • 1.2.3 拓展案例 1:客户满意度调查分析
    • 1.2.4 拓展案例 2:员工绩效评分分析
  • 1.3 概率论基础
    • 1.3.1 基础知识
    • 1.3.2 主要案例:产品质量控制
    • 1.3.3 拓展案例 1:网站流量分析
    • 1.3.4 拓展案例 2:市场风险评估

1.1 数据类型和数据收集

在统计学的海洋中,数据就像是基石,构建了我们理解世界的方式。在深入探索之前,让我们先来熟悉一下数据的基本类型,因为这会影响我们如何收集、分析和解释数据。

1.1.1 基础知识

数据类型

  • 名义数据(Nominal Data):这种类型的数据用于标记无序类别。例如,性别、国籍、品牌名称等。
  • 序数数据(Ordinal Data):序数数据不仅分类,还有一个明确的顺序。比如教育水平(小学、中学、高中)、顾客满意度(不满意、中等、满意)。
  • 区间数据(Interval Data):区间数据是数值型的,不仅有序,还可以计算差值,但没有真正的零点。常见例子包括温度(摄氏度、华氏度)。
  • 比例数据(Ratio Data):比例数据也是数值型的,具有所有区间数据的特性,并且有一个绝对零点,允许进行乘除运算。例如,收入、年龄、销售量。

数据收集

数据收集是统计分析的第一步,决定了分析的质量和可靠性。有效的数据收集方法包括调查问卷、实验设计、观察法等。

1.1.2 主要案例:顾客满意度调查

场景:一家餐厅想要了解顾客对其服务的满意度,以便改进服务质量。

步骤

  1. 设计问卷:包含多个问题,既有选择题(名义数据),也有满意度评分(序数数据)。
  2. 收集数据:通过在线调查或在餐厅现场使用平板电脑进行。
  3. 使用 Python 分析:利用 pandas 库来整理数据,matplotlibseaborn 库来可视化满意度分布。

Python 示例

import pandas as pd
import matplotlib.pyplot as plt# 假设 survey_results 是收集到的数据
survey_results = pd.read_csv('survey_results.csv')# 查看满意度评分的分布
satisfaction_counts = survey_results['satisfaction'].value_counts()
satisfaction_counts.plot(kind='bar')
plt.title('Customer Satisfaction Survey Results')
plt.xlabel('Satisfaction Level')
plt.ylabel('Counts')
plt.show()

1.1.3 拓展案例 1:产品销售分析

场景:一家电子产品公司想要分析不同产品的销量数据,以优化库存和生产计划。

步骤

  1. 收集数据:从销售系统中导出产品销量数据(比例数据)。
  2. 使用 Python 分析:计算每个产品的总销量,分析月销量趋势。

Python 示例

sales_data = pd.read_csv('sales_data.csv')# 计算每个产品的总销量
total_sales = sales_data.groupby('product_name')['quantity'].sum()# 绘制销量图
total_sales.plot(kind='bar')
plt.title('Total Sales by Product')
plt.xlabel('Product Name')
plt.ylabel('Total Quantity Sold')
plt.show()

1.1.4 拓展案例 2:员工绩效评估

场景:公司HR部门想要通过员工的年度绩效评分(区间数据)来进行年终奖金的分配。

步骤

  1. 收集数据:包括员工的姓名、部门、年度评分等。
  2. 使用 Python 分析:计算每个部门的平均绩效评分,识别表现最好和最差的部门。

Python 示例

performance_data = pd.read_csv('performance_data.csv')# 计算每个部门的平均绩效评分
average_performance = performance_data.groupby('department')['score'].mean()# 绘制平均绩效评分图
average_performance.plot(kind='barh')
plt.title('Average Performance Score by Department')
plt.xlabel('Average Score')
plt.ylabel('Department')
plt.show()

通过这些案例,我们可以看到 Python 在处理实际生产和工作中常用数据分析任务时的强大能力。从数据收集到处理分析,Python 提供了一系列工具和库,让数据分析变得既简单又高效。

在这里插入图片描述


1.2 描述性统计学

描述性统计学是统计学中一个至关重要的分支,它涉及到数据的汇总和描述。在深入分析数据之前,描述性统计学提供了一种方式来初步了解数据集的特征和形态。

1.2.1 基础知识

  • 中心趋势度量:这包括平均数(mean)、中位数(median)、众数(mode),它们是描述数据集中心点或典型值的关键指标。
  • 离散程度度量:包括范围(range)、四分位数间距(IQR)、标准差(standard deviation)、方差(variance),这些指标帮助我们理解数据点之间的差异和分散程度。
  • 数据分布的形态:包括偏斜度(skewness)和峰度(kurtosis),它们描述了数据分布的形状。

1.2.2 主要案例:销售数据分析

场景:一家零售公司希望分析其各个门店的月销售数据,以了解销售情况并做出相应的业务调整。

步骤

  1. 数据收集:收集过去一年内各个门店的月销售数据。
  2. 使用 Python 进行描述性统计分析:计算平均销售额、销售额的标准差以及销售额的中位数,并分析销售数据的分布特征。

Python 示例

import pandas as pd# 加载数据
sales_data = pd.read_csv('sales_data.csv')# 计算描述性统计量
descriptive_stats = sales_data.describe()# 打印结果
print(descriptive_stats)# 计算偏斜度和峰度
skewness = sales_data.skew()
kurtosis = sales_data.kurt()print('Skewness: ', skewness)
print('Kurtosis: ', kurtosis)

1.2.3 拓展案例 1:客户满意度调查分析

场景:公司进行了一项客户满意度调查,希望通过分析调查结果来改善产品和服务。

步骤

  1. 收集数据:从调查问卷中收集客户的满意度评分。
  2. 使用 Python 分析:计算满意度评分的平均值、中位数和模式,以及评分的标准差,了解客户满意度的总体情况。

Python 示例

import pandas as pd# 加载数据
survey_data = pd.read_csv('customer_survey.csv')# 计算描述性统计量
mean_score = survey_data['satisfaction_score'].mean()
median_score = survey_data['satisfaction_score'].median()
mode_score = survey_data['satisfaction_score'].mode()[0]
std_dev = survey_data['satisfaction_score'].std()print(f'Mean Satisfaction Score: {mean_score}')
print(f'Median Satisfaction Score: {median_score}')
print(f'Mode Satisfaction Score: {mode_score}')
print(f'Standard Deviation: {std_dev}')

1.2.4 拓展案例 2:员工绩效评分分析

场景:人力资源部想要通过分析员工的年度绩效评分来识别表现出色的员工和需要改进的领域。

步骤

  1. 收集数据:汇总员工的年度绩效评分。
  2. 使用 Python 进行分析:计算绩效评分的平均值、中位数、模式和标准差,以及分布的偏斜度和峰度,了解绩效评分的总体分布情况。

Python 示例

import pandas as pd# 加载数据
performance_data = pd.read_csv('employee_performance.csv')# 计算描述性统计量
performance_stats = performance_data['performance_score'].describe()
print(performance_stats)# 计算偏斜度和峰度
performance_skewness = performance_data['performance_score'].skew()
performance_kurtosis = performance_data['performance_score'].kurt()print(f'Skewness: {performance_skewness}')
print(f'Kurtosis: {performance_kurtosis}')

通过这些案例,我们可以看到描述性统计学在分析实际生产和工作中的数据时的应用价值。使用 Python 进行描述性统计分析不仅可以帮助我们快速了解数据的基本特征,还能深入挖掘数据背后的信息,为决策提供科学依据。

在这里插入图片描述


1.3 概率论基础

概率论是理解和分析随机现象的数学框架。它不仅是统计学的基础,也是数据科学和机器学习中不可或缺的组成部分。掌握概率论的基础知识,可以帮助我们更好地理解数据的随机性和不确定性。

1.3.1 基础知识

  • 概率的定义:概率用于量化一个事件发生的可能性,通常表示为 0 到 1 之间的值,其中 0 表示事件绝对不会发生,1 表示事件必然发生。
  • 条件概率:表示在另一个事件已经发生的条件下,一个事件发生的概率。
  • 独立事件和相依事件:如果两个事件的发生互不影响,则这两个事件是独立的;反之,如果一个事件的发生影响到另一个事件的概率,则这两个事件是相依的。
  • 常见概率分布:包括二项分布、正态分布、泊松分布等,每种分布都有其特定的应用场景和数学特性。

1.3.2 主要案例:产品质量控制

场景:一家制造公司希望通过分析产品缺陷率来评估其生产线的质量控制水平。

步骤

  1. 收集数据:记录一定时间内生产的产品中缺陷产品的数量。
  2. 使用 Python 分析:假设产品缺陷呈泊松分布,计算一定时间内发现特定数量缺陷产品的概率。

Python 示例

from scipy.stats import poisson# 假设平均每天发现 2 个缺陷产品
lambda_ = 2  # λ = 2
# 计算一天内发现恰好 3 个缺陷产品的概率
prob = poisson.pmf(3, lambda_)print(f'一天内发现恰好 3 个缺陷产品的概率为: {prob:.4f}')

1.3.3 拓展案例 1:网站流量分析

场景:一家电商平台想要分析其网站的访客流量,以优化用户体验和增加转化率。

步骤

  1. 收集数据:统计每小时访问网站的用户数。
  2. 使用 Python 分析:假设访问量在不同小时内是独立且分布相同的,计算特定小时内达到特定访问量的概率。

Python 示例

from scipy.stats import norm# 假设网站访问量在每小时内的平均数为 300,标准差为 50
mean = 300
std_dev = 50
# 计算在一个小时内访问量超过 350 的概率
prob = 1 - norm.cdf(350, mean, std_dev)print(f'一个小时内访问量超过 350 的概率为: {prob:.4f}')

1.3.4 拓展案例 2:市场风险评估

场景:金融分析师需要评估投资组合的潜在风险,以帮助投资者做出明智的投资决策。

步骤

  1. 收集数据:收集投资组合中各资产的历史收益率数据。
  2. 使用 Python 分析:计算投资组合的预期收益率和波动率,进而评估在给定置信水平下的最大潜在损失(即价值在风险 VaR)。

Python 示例

import numpy as np# 假设投资组合中有三种资产的历史收益率数据
returns = np.array([0.01, -0.02, 0.015, -0.005, 0.01])
# 计算投资组合的平均收益率和标准差
mean_return = np.mean(returns)
std_dev_return = np.std(returns)
# 计算 95% 置信水平下的 VaR
VaR_95 = norm.ppf(0.05, mean_return, std_dev_return)print(f'95% 置信水平下的最大潜在损失(VaR)为: {VaR_95:.4f}')

通过这些案例,我们可以看到概率论在实际生产和工作中的广泛应用,从产品质量控制到网站流量分析,再到市场风险评估。使用 Python 进行概率分析不仅可以帮助我们更好地理解和预测随机事件,还能为决策提供科学依据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/464482.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Maven进阶

一、分模块开发与设计 1. 分模块开发的意义 问题导入 分模块开发对工程有什么好处? 模块拆分原则 目的:项目的扩展性变强了,方便其他项目引用相同的功能。 将原始模块按照功能拆分成若干个子模块,方便模块间的相互调用&#…

Qualcomm 蓝牙耳机 FAQ(41)---------Audio 问题分析之 ACAT Tools安装

大家好! 新的一年,在此祝大家:新年快乐!工作上步步高升!!龙年大吉!!! 也欢迎大家登录大大通平台,春节期间正常更新文章,期待你的到来&#xff0…

猫头虎分享已解决Bug || Go Error: Missing Return at End of Function

博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开发秘籍》 — 提升你的IDEA技能!《100天精通鸿蒙》 …

Transformer实战-系列教程13:DETR 算法解读

🚩🚩🚩Transformer实战-系列教程总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Pycharm中进行 本篇文章配套的代码资源已经上传 点我下载源码 1、物体检测 说到目标检测你能想到什么 faster-rcnn系列,开山之作&…

【深度学习:MPT-30B】提高开源基础模型的标准

【深度学习:MPT-30B】提高开源基础模型的标准 MPT-30B家族MPT-30B (Base)MPT-30B-InstructMPT-30B-Chat使用 MosaicML Inference 部署 MPT-30B 模型通过 MosaicML 培训定制 MPT-30BLLM Foundry 下一步是什么? 附录致谢数据MPT-30B 8k 上下文窗口微调数据…

QT入门-基本控件

1.QTextEdit qt助手查看可知一些信息,其余信息见全文 1.1 functions public function如下: 使用时通过QT助手查找 实例: #include "mainwindow.h" #include "ui_mainwindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new …

[论文精读]Community-Aware Transformer for Autism Prediction in fMRI Connectome

论文网址:[2307.10181] Community-Aware Transformer for Autism Prediction in fMRI Connectome (arxiv.org) 论文代码:GitHub - ubc-tea/Com-BrainTF: The official Pytorch implementation of paper "Community-Aware Transformer for Autism P…

本地部署Stable Diffusion WebUI

官网 Stable Diffusion在线 Github上的Stable Diffusion WebUI 提醒一下:下面实例讲解是在Mac系统演示的; 一、 环境所需资源 PythonPycharmAnacondastable-diffusion-webui项目代码 注意事项 python版本一定要3.10,最好是3.10.6版本的。…

windows 查看磁盘空间 treesizefree

https://downloads.jam-software.de/treesize_free/TreeSizeFreeSetup.exe

【Linux】Linux下的基本指令

Linux下的基本指令 Linux 的操作特点:纯命令行ls 指令文件 pwd命令Linux的目录结构绝对路径 / 相对路径,我该怎么选择? cd指令touch指令mkdir指令(重要)rmdir指令rm 指令(重要)man指令&#xff…

HTML 标签

HTML:超文本标记语言 HTML骨架结构: html标签:网页的整体 head标签:网页的头部 body标签:网页的身体 HTML的注释 VS code中:ctrl/ 浏览器不会执行注释 HTML标签的构成: 双标签&#xff1a…

【算法与数据结构】496、503、LeetCode下一个更大元素I II

文章目录 一、496、下一个更大元素 I二、503、下一个更大元素II三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、496、下一个更大元素 I 思路分析:本题思路和【算法与数据结构】739、LeetCode每日温度类似…