数据分析实战(基础篇):从数据探索到模型解释

前言

  • 本文着重介绍数据分析实战的基础知识和技巧,探索从数据探索到建模再到模型解释的完整过程
  • 内容包含数据探索、模型建立、调参技巧、SHAP模型解释
  • 数据来源于kaggle平台,crab age prediction数据集,数据详情

数据说明

数据背景

螃蟹味道鲜美,世界上许多国家每年都会进口大量螃蟹供消费。螃蟹养殖的主要优点是劳动力成本很低,生产成本相对较低,而且生长速度很快。商业螃蟹养殖业正在发展沿海地区人民的生活方式。通过适当的照顾和管理,我们从螃蟹养殖业中可以获得比养虾业更多的收入。您可以在两个系统中饲养青蟹。发展农业和育肥系统。

数据价值

对于商业蟹农来说,了解螃蟹的正确年龄有助于他们决定是否以及何时收获螃蟹。超过一定年龄后,螃蟹的物理特性的增长可以忽略不计,因此,把握收获时间以降低成本并增加利润非常重要。该数据集的目标是:

  • 探索性数据分析 - 了解不同的身体特征如何随年龄变化。
  • 特征工程 - 使用给定数据点的组合定义新特征,以帮助提高模型准确性。
  • 回归模型 - 构建回归模型来预测螃蟹的年龄。

数据字段

  • Sex:螃蟹的性别——雄性(M)、雌性(F)和不确定(I)。
  • Length:螃蟹的长度(以英尺为单位;1 英尺 = 30.48 厘米)
  • Diameter:螃蟹的直径(以英尺为单位;1 英尺 = 30.48 厘米)
  • Height:螃蟹的高度(以英尺为单位;1 英尺 = 30.48 厘米)
  • Weight:螃蟹的重量(以盎司为单位;1 磅 = 16 盎司)
  • Shucked Weight:不含壳的重量(以盎司为单位;1 磅 = 16 盎司)
  • Viscera Weight:身体深处腹部器官的重量(以盎司为单位;1 磅 = 16 盎司)
  • Shell Weight:外壳重量(盎司;1 磅 = 16 盎司)
  • Age:螃蟹的年龄(月)

依赖包

  • pandas:读取数据,基础包
  • ydata-profiling:快速数据探索包,Github项目地址,官方文档
  • sklearn:经典的机器学习模型包,这里不过多介绍
  • shap:SHAP(SHapley Additive exPlanations)是一种博弈论方法,用于解释任何机器学习模型的输出。它将最优信用分配与局部解释联系起来,使用博弈论中的经典Shapley值及其相关扩展(有关详细信息和引文,请参阅论文)。
  • 下面的分析都基于以上包的支持,请提前使用pip install进行安装,如果是在Jupyter Notebook中使用,请使用```!pip install``。

导入必要包

import numpy as np
import pandas as pd
from plotnine import*
import seaborn as sns
from scipy import statsimport matplotlib as mpl
import matplotlib.pyplot as plt
#中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False# notebook嵌入图片
%matplotlib inline
# 提高分辨率
%config InlineBackend.figure_format='retina'from ydata_profiling import ProfileReportimport shap# 忽略警告
import warnings
warnings.filterwarnings('ignore')

导入数据

df = pd.read_csv('/kaggle/input/crab-age-prediction/CrabAgePrediction.csv')
df.head()

输出

Sex	Length	Diameter	Height	Weight	Shucked Weight	Viscera Weight	Shell Weight	Age
0	F	1.4375	1.1750	0.4125	24.635715	12.332033	5.584852	6.747181	9
1	M	0.8875	0.6500	0.2125	5.400580	2.296310	1.374951	1.559222	6
2	I	1.0375	0.7750	0.2500	7.952035	3.231843	1.601747	2.764076	6
3	F	1.1750	0.8875	0.2500	13.480187	4.748541	2.282135	5.244657	10
4	I	0.8875	0.6625	0.2125	6.903103	3.458639	1.488349	1.700970	6

数据分析

profile = ProfileReport(df, title="Crab data report")
profile.to_notebook_iframe()
  • 由于CSDN无法内嵌html文件,这里只能将完整的数据报告拆分,分开讲解。

概述

在这里插入图片描述

  • 从上图中可获知以下信息:
    • 数据一共包含9个特征
    • 数据一共有3893个样本
    • 数据样本没有任何缺失与重复
    • 分类变量有1个,其他8个为数值变量
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征LengthDiameter有较强的相关性
    • 特征LengthHeight有较强的相关性
    • 特征LengthWeight有较强的相关性
    • 特征LengthShucked Weight有较强的相关性
    • 特征LengthViscera Weight有较强的相关性
    • 特征LengthShell Weight有较强的相关性
    • 特征LengthAge有较强的相关性

变量

在这里插入图片描述

  • 从上图中可获知以下信息:
    • 特征Sex为类别变量,一共有3类
    • 其中类别M的样本有1435条、类别I的样本有1233条、类别F的样本有1225条
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Length为数值变量,一共出现了134个值,差异比例为3.4%
    • 根据直方图可以看到数据分布呈一定右偏
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Diameter为数值变量,一共出现了111个值,差异比例为2.9%
    • 根据直方图可以看到数据分布呈一定右偏
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Height为数值变量,一共出现了51个值,差异比例为1.3%
    • 根据直方图可以看到数据分布呈正态分布,但最大值为2.825,有点异常,可能要考虑剔除。
    • 0值有2个,占总体样本的0.1%,根据经验长度不可能为0,所以这2个样本可能为异常样本,需要剔除。
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Weight为数值变量,一共出现了2343个值,差异比例为60.2%
    • 根据直方图可以看到数据分布呈一定左偏,60以后的值需要考虑是否为潜在异常值,并对其进行相应处理
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Shucked Weight为数值变量,一共出现了1482个值,差异比例为38.1%
    • 根据直方图可以看到数据分布呈一定左偏,30以后的值需要考虑是否为潜在异常值,并对其进行相应处理
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Viscera Weight为数值变量,一共出现了867个值,差异比例为22.3%
    • 根据直方图可以看到数据分布呈一定左偏,15以后的值需要考虑是否为潜在异常值,并对其进行相应处理
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Shell Weight为数值变量,一共出现了907个值,差异比例为23.3%
    • 根据直方图可以看到数据分布呈一定左偏,20以后的值需要考虑是否为潜在异常值,并对其进行相应处理
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等
      在这里插入图片描述
  • 从上图中可获知以下信息:
    • 特征Age为数值变量,一共出现了28个值,差异比例为0.7%
    • 根据直方图可以看到数据分布基本呈正态分布,25以后的值需要考虑是否为潜在异常值,并对其进行相应处理
    • 获知该特征的各类统计特征,如最大最小值、平均值、四分位数等等

交互作用图

  • 这里可以选择不同的两个变量,因为篇幅有限,这里只展示纵轴为Weight,横轴为Age的交互图。
    在这里插入图片描述

相关性图

在这里插入图片描述

  • 上面图中展现的高相关性信息在概述阶段已经说明了,这里就不再赘述了。

数据处理

  • 根据上述数据分析,对数据进行相应处理
  • 将特征Height中为0的样本进行剔除
  • 因为Sex无大小关系,所以对其进行独热编码,使用df = pd.get_dummies(df,columns=["Sex"])
  • 使用sklearn中的隔离森林算法剔除潜在异常值,异常值占比为0.05(经验数值)
  • 将数据进行标准化(zscore)变换,由于数据量较小,训练集为0.9,测试集为0.1,使用10折交叉检验平均MSE作为评估标准
  • 以Age为因变量,其余特征为自变量,构建回归模型

建立模型与调参

  • 使用sklearn构建多种回归模型,如gbrcatboostlightgbm
IDModelMAEMSERMSER2RMSLEMAPETT (Sec)
gbrGradient Boosting Regressor1.50194.48892.11690.55300.17270.15010.3410
catboostCatBoost Regressor1.50824.53342.12770.54850.17290.15052.6590
lightgbmLight Gradient Boosting Machine1.52404.62802.15040.53890.17510.15160.4320
rfRandom Forest Regressor1.53384.65512.15610.53630.17620.15350.8190
etExtra Trees Regressor1.54944.74622.17720.52670.17800.15520.4890
ridgeRidge Regression1.57714.84772.19790.51660.18240.15960.0430
lrLinear Regression1.57724.84792.19800.51650.18220.15960.4730
larLeast Angle Regression1.57724.84792.19800.51650.18220.15960.0470
brBayesian Ridge1.57714.84822.19800.51660.18240.15960.0440
huberHuber Regressor1.54354.91302.21360.51050.18140.15030.0620
xgboostExtreme Gradient Boosting1.58845.03902.24290.49720.18220.15810.2910
knnK Neighbors Regressor1.61475.16072.27050.48560.18530.15990.0500
ompOrthogonal Matching Pursuit1.81576.11712.47150.39170.20840.18670.0400
enElastic Net1.88556.68652.58330.33670.22120.20070.0440
lassoLasso Regression1.95367.12382.66630.29370.23600.21540.0440
llarLasso Least Angle Regression1.95367.12382.66630.29370.23600.21540.0420
adaAdaBoost Regressor2.24637.23862.68730.27670.23250.24790.1820
dtDecision Tree Regressor2.06268.93082.98650.10790.23890.20350.0530
parPassive Aggressive Regressor2.29119.00012.97840.08970.26360.24010.0480
dummyDummy Regressor2.336910.09903.1743-0.00060.28710.26720.0990
  • 可以发现,gbr模型的MSE最低,效果最好。使用随机搜索,调整参数,迭代20次,最佳模型10折交叉检验结果。
FoldMAEMSERMSER2RMSLEMAPE
01.52674.70452.16900.55360.17190.1519
11.46464.32812.08040.56950.16740.1447
21.50534.37462.09150.55340.17570.1562
31.49954.55262.13370.54660.17310.1512
41.57984.64052.15420.56270.18420.1652
51.38793.70921.92590.60790.16540.1462
61.56134.80662.19240.53260.17440.1508
71.47394.42132.10270.58990.16830.1440
81.48734.55542.13430.60520.17160.1502
91.46544.07502.01870.47920.16580.1471
Mean1.49524.41682.10030.56010.17180.1508
Std0.05150.30820.07480.03590.00530.0060
  • 最优参数如下:
Paramnums
alpha0.9
ccp_alpha0.0
criterionfriedman_mse
initNone
learning_rate0.1
losssquared_error
max_depth3
max_featuresNone
max_leaf_nodesNone
min_impurity_decrease0.0
min_samples_leaf1
min_samples_split2
min_weight_fraction_leaf0.0
n_estimators100
n_iter_no_changeNone
random_state2023
subsample1.0
tol0.0001
validation_fraction0.1
verbose0
warm_startFalse

模型分析

  • 对模型进行分析,可视化一些指标

模型残差图

请添加图片描述

  • 模型在训练集与测试集上 R 2 R^2 R2相差不大,说明未发生过拟合现象
  • 残差均匀分布在0线两侧,且呈现随机性
  • 模型在训练集与测试集上残差分布基本一致

模型学习曲线

请添加图片描述

  • 通过学习曲线我们可以判断模型是否产生了过拟合现象,可以看到上图中训练集和验证集都在往中间数值收敛,说明模型未参生过拟合现象。

模型解释

  • 这一模块要用到SHAP包了,使用Shapley值评估特征对模型的影响。

力图

  • 我们可以取出一个样本,然后可视化其预测过程,代码如下
# 取训练数据
X = s.get_config('X_train')
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)
shap.force_plot(explainer.expected_value, shap_values[0,:], X.iloc[0,:])

在这里插入图片描述

  • 红色的代表特征贡献的正方向力(将预测推高),蓝色的表示特征贡献的负方向的力(将预测推低)

部分依赖图

  • 为了解单个特征如何影响模型的输出以及特征间的交互作用,我们可以绘制部分依赖图
  • 部分预测图遵照下列规则
    • 每个点都是数据集中的一个样本
    • x轴是特征的值(来自X矩阵,存储在shap_values.data中)
    • y轴是该特征的SHAP值(存储在shap_values.values中)。它表示了该特征的值会在多大程度上改变该样本预测的模型输出。对于这个模型,单位是Age的对数赔率。
    • 散点图的颜色由另一个特征决定,如果不传入固定特征,则函数会挑选与分析特征交互最强的特征列(比如在下面与Length交互性最强的是Sex_F
  • 我们绘制出除Sex独热编码后的其余列,并让函数自动选择与其交互性较强的特征
for name in X.columns:if 'Sex' not in name:shap.dependence_plot(name, shap_values, X)

请添加图片描述

  • 由上图可知:
    • Length交互性最强的是Sex_F
    • 长度在1.25以上的雌性螃蟹年龄高于雄性和未知性别螃蟹
    • 长度在1.00以下时,随着长度增加年龄也随着增加,但超过1.00以上时,长度增加年龄不一定增加
      请添加图片描述
  • 由上图可知:
    • Diameter交互性最强的是Sex_M
    • 螃蟹直径小于0.6时,直径越长,年龄越小。当直径在0.6~0.8时,直径越长,年龄越大,当直径超过0.8时,直径对年龄影响较小
    • 直径在0.7以下时,雄性螃蟹年龄基本大于雌性和未知性别
      请添加图片描述
  • 由上图可知:
    • Height交互性最强的是Length
    • 螃蟹高度大于0.3时,长度大的螃蟹年龄更大
      请添加图片描述
  • 由上图可知:
    • Weight交互性最强的是Sex_M
    • 在重量相同时,雄性螃蟹年龄比雌性和未知性别年龄大
      请添加图片描述
  • 由上图可知:
    • Shucked Weight交互性最强的是Diameter
    • 当螃蟹不含壳的重量小于3时,重量越小,年龄越小。
    • 去壳重量量越大,螃蟹直径越大

蜂群摘要图

  • 蜂群图旨在显示数据集中的主要特征如何影响模型输出的信息密集摘要。
  • 给定解释的每个实例都由每个特征流上的单个点表示。
  • 点的 x 位置由该特征的 SHAP 值确定,点沿着每个特征行“堆积”以显示密度。颜色用于显示特征的原始值。
    请添加图片描述
  • 由上图可得以下结论:
    • 平均而言外壳重量(Sheel Weight)是最重要的特征,外壳重量越大,螃蟹年龄越大
    • 不含壳重量(Shucked Weight)越轻,反而可能有着更大的年龄。重的不含壳重量几乎年龄较小
    • 长度(Length)越长,年龄越小
    • 直径(Diameter)越小,几乎年龄较小
    • 雄性(Sex_M)和雌性(Sex_F),年龄相较于未知(Sex_I)更大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/14686.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Matlab数学建模实战——(Lokta-Volterra掠食者-猎物方程)

1.题目 问题1 该数学建模的第一问和第二问主要是用Matlab求解微分方程组,直接编程即可。 求解 Step1改写 y(1)ry(2)f Step2得y的导数 y(1).2y(1)-ay(1)*y(2)y(2).-y(2)a*y(1)*y(2) Step3编程 clear; a0.01; F(t,y)[2*y(1)-a*y(1)*y(2);-y(2)a*y(1)*y(2)]; […

Windows环境Jmeter调优

在windows环境下搭建jmeter的压测实验环境,需要对操作系统默认的一些个参数进行设置,以提高并发能力。特别是作为压力机的时候。 Socket 编程时,单机最多可以建立多少个 TCP 连接,受到操作系统的影响。 Windows 下单机的TCP连接数…

TL-ER2260T获取SSH密码并登录后台

TL-ER2260T获取SSH密码并登录后台 首先需要打开诊断模式 打开Ubuntu,通过如下指令计算SSH密码,XX-XX-XX-XX-XX-XX是MAC地址echo -n "XX-XX-XX-XX-XX-XX" | tr -d - | tr [a-z] [A-Z] | md5sum | cut -b 1-16SSH登录ssh -oKexAlgorithmsdiffie…

haproxy负载均衡

目录 一.常见的web集群调度器 二.haproxy的概念 三.特性 四 图解haproxy 五 haproxy的配置文件详解 一.常见的web集群调度器 1.目前常见的web集群调度器分为软件和硬件 2.软件通常使用开源的lvs/haproxy/nginx 3.硬件一般使用比较多的是f5 也有国内的产品 二.haproxy的…

小机器人在现实世界中学会快速驾驶

小机器人在现实世界中学会快速驾驶 —强化学习加上预训练让机器人赛车手加速前进— Without a lifetime of experience to build on like humans have (and totally take for granted), robots that want to learn a new skill often have to start from scratch. Reinforceme…

系统吞吐量(TPS)、用户并发量、性能测试概念和公式

目录 PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素: 二.系统吞吐量评估: 软件性能测试的基本概念和计算公式 一、软件性能的关注点 二、软件性能的几个主要术语 PS&…

hive数据的导入导出

一、hive 的数据导入 Linux本地文件以及数据格式: 在hive中创建表: create table t_user( id int ,name string ) row format delimited fields terminated by "," lines terminated by \n stored as textfile;stored as常见的几种格式 1.…

使用wordpress搭建WebStack导航网站记录

0 序言 首先,我来介绍下,这个webstack导航网站实际上是被做成了wordpress的一个主题,具体这个主题的下载地址如下: WordPress 版 WebStack 导航主题https://github.com/owen0o0/WebStack 我们不需要使用git clone命令&…

回归预测 | MATLAB实现CNN-BiGRU-Attention多输入单输出回归预测

回归预测 | MATLAB实现CNN-BiGRU-Attention多输入单输出回归预测 目录 回归预测 | MATLAB实现CNN-BiGRU-Attention多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现CNN-BiGRU-Attention多输入单输出回归预测,CNN-GRU结合…

机器人轨迹生成:轨迹规划与路径规划

机器人轨迹生成涉及到轨迹规划和路径规划两个关键概念,它们是机器人运动控制中的重要组成部分。下面对轨迹规划和路径规划进行深入比较。 轨迹规划(Trajectory Planning): 定义:轨迹规划是指在机器人运动中确定机器人末…

Linux 文件属性

ubuntu命令行下输入以下命令: ls- al第一个字符表示“文件类型”,它是目录、文件或链接文件等。 文件类型后面的 9 个字符以 3 个为一组,第一组表示“文件所有者的权限”;第二组表示“用户组的权限”;第三组表示“其…

【Azure】解析 Microsoft Defender for Cloud:云安全的保护与管理

你在使用自己的电脑的时候,作为安全防护你可能直接装个杀毒软件,或者什么xx管家之类的,那么你是否有想过,如果我有一套云服务之后,我应该如何进行安全防护呢?本文带你了解在 Azure 云中的安全防护体系&…