python统计分析——多解释变量的方差分析

参考资料:用python动手学统计学

1、导入库

# 导入库
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
# 用于绘图的库
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# 用于估计统计模型的库
import statsmodels.formula.api as smf
import statsmodels.api as sm

2、数据准备

本次数据为准预测销售额的模型,包含湿度、气温、天气(晴或雨)、价格4个解释变量。天气为分类变量,其余为连续变量。

sales=pd.read_csv(r"文件路径")
sales

3、数据可视化展示

        在进行数据分析时,第一步永远是可视化。统计、模型化等工作都要放在后面做。由于及时变量有多个,因此这里绘制散点图矩阵。如下

sns.pairplot(data=sales,hue='weather')

        在矩阵图中,可以看出除了气温湿度有明显的正相关关系外,其他因素间没有明显的关系。

4、多解释变量模型

# 拟合多解释变量的模型
# 在定义多解释变量的模型时,解释变量之间用加号连接
lm_sales=smf.ols("sales~weather+humidity+temperature+price",data=sales).fit()
# 输出估计参数
lm_sales.params

5、模型选择

在typeⅠ ANOVA中,如果改变解释变量的顺序,检验结果会不一样。在方差分析中,解释变量的效应是基于残差量化的,变量个数增加时所减少的残差平方和决定了变量的效应。在多解释变量模型中,变量个数增加时所减少的残差平方和决定了变量的效应大小,在这种情况下变量平方和的值会因其添加的顺序不同而不同,对于解释变量是否存在显著性影响的判断也不同。对多解释变量模型进行type Ⅰ ANOVA可能会导致错误的结论。具体示例请查阅:《用python动手学统计学》一书。

type Ⅱ ANOVA是方差分析的一种,它的结果不会因解释变量顺序的不同而不同。typeⅡ ANOVA 根据解释变量减少时所增加的残差平方和量化解释变量的效应。即使解释变量的顺序不同,这种方法的效果也不会改变。通过这种方法得到的组间偏差平方和就叫作调整平方和。

当解释变量只有一个时,type Ⅰ ANOVA与type Ⅱ ANOVA的结果相等。

6、方差分析

# 输出方差分析表
print(sm.stats.anova_lm(lm_sales,typ=2))

由此方差分析表可知,humidity的p值为0.578,湿度对销售额没有显著影响。

结合前面的可视化作图,可知气温和湿度的相关性很强,因此可能存在这种情况:如果模型中包含了气温,就无法认为湿度会对销售额产生显著影响。下面我们继续对不含湿度的模型进行方差分析。

# 拟合不含湿度的模型
mod_non_humi=smf.ols('sales~weather+temperature+price',data=sales).fit()
#输出方差分析表
print(sm.stats.anova_lm(mod_non_humi,typ=2).round(3))

 由上表可知,目前所有变量都是必要的,至此,变量的选择结束。

系数等结果的解读应该使用变量选择后的模型进行,不应该将通过错误的变量组合进行模型化的结果用于预测或解读。

因此,本例的模型参数如下:

mod_non_humi.params

7、使用AIC进行变量选择

如果使用AIC 进行变量选择,就没有必要像方差分析那样更滑计算方法,直接建模并计算AIC即可。

print('包含所有变量的模型:',lm_sales.aic.round(3))
print('不含湿度的模型:',mod_non_humi.aic.round(3))

不含湿度的模型的AIC更小,所以湿度不应该包含在销售额预测模型中。原则上应该对比所有变量组合的AIC。

使用AIC进行变量选择的过程是比较固定的。它和系数t检验不同,多水平的变量不会导致多重假设检验问题,所得模型的含义永远是“对未知数据的预测误差最小的变量组合”。AIC也没有检验的非对称性问题。不过,与不能过度信任p值类似,我们也不能过度信任AIC,还应该从系数的含义、变量选择的结果、残差等多个方面综合评估模型。

8、多重共线性

在解释变量之间相关性很强时出现的问题就是多重共线性。在本例中,气温与湿度就是相关的,在解读类似模型时需要注意这一点。

多重共线性问题最简单的解决方案就是去掉强相关变量中的一个。多重共线性会对系数的解读造成干扰,我们应该先进行变量选择再解读结果。

在变量选择的过程中有时会使用检验,但如果变量之间强相关(如相关系数接近1),检验所得的p值也会收到干扰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/491463.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker-compose 搭建laravel环境

laravel环境包含nginx,mysql,php7.4,redis 一、安装好docker后pull镜像 1.nginx镜像 docker pull nginx:latest单独启动容器 docker run --name nginx -p 80:80 -d nginx 2.php镜像 docker pull php:7.4-fpm3.mysql镜像 docker pull mysql:5.74.redis镜像 docker pull r…

高频面试题整理(一)

文章目录 平台无关性如何实现?JVM如何加载 .class文件?什么是反射?谈谈ClassLoader谈谈类的双亲委派机制类的加载方式Java的内存模型?JVM内存模型-jdk8程序计数器:Java虚拟机栈局部变量表和操作数栈: Java内存模型中堆和栈的区别…

Linux部署前后端分离项目

目录 一、jdk安装 二、tomcat安装 三、MySQL安装 四、nginx安装 五、配置多个tomcat负载,部署后端项目 六、前端部署 一、jdk安装 1. 上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 2. 解压安装包 这里需要解压到usr/loc…

17.材质和外观

1.图形学中的材质 在图形学中,材质(Material)是用来描述物体外观和表面特性的属性集合。它包含了控制光的反射、折射、吸收以及其他光学效果的信息,从而决定了物体在渲染过程中的外观。 渲染方程中那一项和材质有关? …

vue项目的前端工程化思路webpack(持续更新中)

写在前面:现在的前端网页功能丰富,特别是SPA(single page web application 单页应用)技术流行后,JavaScript的复杂度增加和需要一大堆依赖包,还需要解决Scss,Less……新增样式的扩展写法的编译工…

设计模式学习笔记 - 面向对象 - 8.实践:贫血模型和充血模型的原理及实践

1.Web开发常用的贫血MVC架构违背OOP吗? 前面我们依据讲过了面向对象四大特性、接口和抽象类、面向对象和面向过程编程风格,基于接口而非实现编程和多用组合少用继承设计思想。接下来,通过实战来学习如何将这些理论应用到实际的开发中。 大部…

第二节:Vben Admin 登录逻辑梳理和对接后端准备

系列文章目录 上一节:第一节:Vben Admin介绍和初次运行 文章目录 系列文章目录前言项目路径的概述一、登录逻辑梳理loginApi接口查看Mock 二、后端程序对接准备关闭Mock 总结 前言 第一节,我们已经配置了前端环境,运行起来了我们…

zabbix监控业务数据

前言 监控系统除了监控os和数据库性能相关的指标外,业务数据也是重点监控的对象。 一线驻场的运维同学应该深有体会,每天需要向甲方或者公司反馈现场的数据情况,正常情况下一天巡检两次,早上上班后和下午下班前各一次。监控项目…

复旦大学EMBA联合澎湃科技:共议科技迭代 创新破局

1月18日,由复旦大学管理学院、澎湃新闻、厦门市科学技术局联合主办,复旦大学EMBA项目、澎湃科技承办的“君子知道”复旦大学EMBA前沿论坛在厦门成功举办。此次论坛主题为“科技迭代 创新破局”,上海、厦门两地的政策研究专家、科学家、科创企…

RDMA内核态函数ib_post_recv()源码分析

接上文,上文分析了内核rdma向发送队列添加发送请求的函数ib_post_send,本文分析一下向接收队列添加接收请求的函数ib_post_recv。其实函数调用流程与上文类似,不再重复说明,可参考链接。 函数调用过程 最终会调用到这个函数 下面…

力扣随笔删除有序数组中的重复项(简单26)

思路:根据类似于滑动窗口的思想,定义一个指针;使指针左边的区域全部为不重复元素(包括指针所指的数字) 以示例2为例,left:红色加粗 遍历指针i:黑色加粗 窗口范围,左边界到…

剪辑视频调色怎么让画质变得清晰 视频剪辑调色技巧有哪些方面 剪辑视频免费的软件有哪些 会声会影调色在哪里 会声会影模板素材

视频调色的作用有很多,除了进行风格化剪辑以外,还可以让作品的画质变得清晰。通过调色来增强画面的清晰度,在观感上也会显得十分自然。视频调色的技巧有很多,并且原理大都十分简单。有关剪辑视频调色怎么让画质变得清晰&#xff0…