Python数学建模之回归分析

1.基本概念及应用场景        

        回归分析是一种预测性的建模技术,数学建模中常用回归分析技术寻找存在相关关系的变量间的数学表达式,并进行统计推断。例如,司机的鲁莽驾驶与交通事故的数量之间的关系就可以用回归分析研究。回归分析根据变量的数目分为一元回归和多元回归,根据自变量和因变量的表现形式分为线性和非线性

回归模型:描述因变量y如何依赖于自变量x和误差项e的方程。

回归方程:描述因变量y如何依赖于自变量x的方程。

2.回归分析的一般步骤

  • 确定回归方程中的解释变量和被解释变量
  • 确定回归模型,建立回归方程
  • 对回归方程进行各种检验
  • 用回归方程进行预测

3.一元线性回归分析

1.概念

例子:

  • 人均收入是否显著影响人均食品消费支出
  • 贷款余额是否影响到不良贷款
  • 航班正点率是否对顾客投诉次数有显著影响

回归模型: 

y=\beta _{0}+\beta _{1}x+\epsilon

\beta _{0}:截距

\beta _{1}:斜率

\epsilon:误差项,反映随机因数对y的影响,是不可避免的

回归方程:

y=\beta _{0}+\beta _{1}x

        若回归方程中的未知参数已知,则对于给定的x值,可计算出y的期望值。

        用样本统计量代替未知参数,就得到估计的回归方程,称回归直线。

2.最小二乘法求参数

        常用最小二乘法,即使残差(因变量的观察值与估计值的离差)平方和达到最小求参数:

Q=\sum (y-\widehat{y})^{2}=\sum (y-\widehat{\beta} _{0}-\widehat{\beta }_{1}x)^{2}

展开:

Q=\sum y^{2}+n\widehat{\beta} ^{2}_{0}+\widehat{\beta} ^{2}_{1}\sum x^{2}+2\widehat{\beta}_{0}\widehat{\beta}_{1}\sum x-2\widehat{\beta}_{0}\sum y-2\widehat{\beta}_{1}\sum xy

求偏导并整理:

\left\{\begin{matrix} \widehat{\beta }_{1}=\frac{n\sum xy-\sum x\sum y}{n\sum x^{2}-(\sum x)^2 }\\ \widehat{\beta }_{0}=\overline{y}-\widehat{\beta _{1}}\overline{x} \end{matrix}\right.

代入数据即可得到\widehat{\beta }_{0}\widehat{\beta }_{1}

3.点估计

        将x的值代入回归方程即可得对应\widehat{y}的点估计值。

4.区间估计

估计标准误差:

s_{e}=\sqrt{\frac{\sum (y-\widehat{y})^{2}}{n-k}}

        估计标准误差越小,则数据点围绕回归直线的分散程度越小,回归方程的代表性越大,可靠性越高。

置信区间:

\widehat{y_{0}}\pm t_{\frac{\alpha }{2}}s_{e}\sqrt{\frac{1}{n}+\frac{(x_{0}-\overline{x})^{2}}{\sum (x-\overline{x})^{2}}}

预测区间:

\widehat{y_{0}}\pm t_{\frac{\alpha }{2}}s_{e}\sqrt{1+\frac{1}{n}+\frac{(x_{0}-\overline{x})^{2}}{\sum (x-\overline{x})^{2}}}

\alpha:显著性水平

1-\alpha:置信水平

t_{\frac{\alpha }{2}}:即t_{\frac{\alpha }{2}}(n-k),n-k为残差自由度(样本容量-回归系数的数量),一元线性回归方程中k=2

模型建立和求解的Python代码:

import numpy as np
import statsmodels.api as sm
import scipy.stats as stats
import matplotlib.pyplot as plt
plt.rc('font', family='SimHei')  # 用来正常显示中文标签
plt.rc('axes', unicode_minus=False)  # 用来正常显示负号# 输入数据
x = np.array([143, 145, 146, 147, 149, 150, 153, 154, 155, 156, 157, 158, 159, 160, 162, 164])
y = np.array([88, 85, 88, 91, 92, 93, 93, 95, 96, 98, 97, 96, 98, 99, 100, 102])# 添加截距项
X = sm.add_constant(x)# 求参数值
model = sm.OLS(y, X).fit()
beta = model.params
print("参数值:")
print("beta0 =", beta[0])
print("beta1 =", beta[1])# 点估计
x0 = float(input("x="))
y_pred = beta[0] + beta[1] * x0
print("点估计预测值:", y_pred)# 计算标准误差
se = np.sqrt(model.mse_resid)# 自由度
n = len(x)
df = n - model.df_model - 1# 置信水平和 t 分位数
alpha = 0.05
t = np.abs(stats.t.ppf(alpha/2, df))# 计算置信区间和预测区间
x_mean = np.mean(x)
x_var = np.sum((x - x_mean)**2)
conf_interval = t * se * np.sqrt(1/n + (x - x_mean)**2 / x_var)
pred_interval = t * se * np.sqrt(1 + 1/n + (x - x_mean)**2 / x_var)# 绘制原始数据和回归直线
plt.scatter(x, y, color='blue', marker='*', label='原始数据')
plt.plot(x, model.fittedvalues, color='red', label='回归直线')
plt.xlabel('x')
plt.ylabel('y')# 绘制置信区间和预测区间
plt.fill_between(x, model.fittedvalues - conf_interval, model.fittedvalues + conf_interval, color='gray', alpha=0.3, label='置信区间')
plt.fill_between(x, model.fittedvalues - pred_interval, model.fittedvalues + pred_interval, color='yellow', alpha=0.3, label='预测区间')plt.legend()
plt.show()

5.模型检验

1.回归直线的拟合优度

        回归直线与各观测点的接近程度称为回归直线对数据的拟合优度。

        评价拟合优度的指标:

  • 总平方和(TSS):反映因变量的n个观测值与其均值的总离差

TSS=\sum y_{i}^{2}=\sum (y_{i}-\overline{y}_{i})^{2}

  • 回归平方和(ESS):反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分

ESS=\sum \widehat{y_{i}}^{2}=\sum (\widehat{y_{i}}-\overline{y}_{i})^{2}

  • 残差平方和(RSS):反映了其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分

RSS=\sum e_{i}^{2}=\sum (y_{i}-\widehat{y_{i}})^{2}99

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/468578.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小结与数字的魅力的开篇

小结 本系列主要介绍了一些排序算法,包括冒泡排序、快速排序、直接插入排序、希尔排序、简单选择排序、堆排序、归并排序、计数排序、桶排序和基数排序。 排序算法本身并不难,但其涉及的知识点却星罗棋布,其变化莫测的思路更让人难以捉摸&am…

django CBV 与 DRF APIView源码分析

django CBV源码分析 在django框架中,视图层中的逻辑即可以使用函数处理也可以使用类进行处理,如果在视图层中使用函数处理请求,就是FBV(function base views),如果在视图层中使用类处理请求,就是CBV(class base views…

【lesson54】线程互斥

文章目录 线程互斥 线程互斥 互斥量mutex 大部分情况,线程使用的数据都是局部变量,变量的地址空间在线程栈空间内,这种情况,变量归属单个线程,其他线程无法获得这种变量。但有时候,很多变量都需要在线程间…

计算机服务器中了locked勒索病毒怎么处理,locked勒索病毒解密数据恢复

网络技术的不断发展,为企业的生产生活提供了极大便利,但也为网络安全带来严重威胁。近期,云天数据恢复中心接到某集团企业的求助,企业的计算机服务器遭到了locked勒索病毒攻击,导致企业系统内部的金蝶账套全部被加密&a…

前端学习的笔记第二篇

vscode如何快速生成代码 ! Tab 效果&#xff1a; 解析&#xff1a; <!DOCTYPE html>: 指定当前html版本5。 <html lang"en">: lang > language&#xff0c;en > english。指定当前页面内容是英文的。 <meta charset"UTF-8">:…

DS:树及二叉树的相关概念

创作不易&#xff0c;兄弟们来波三连吧&#xff01;&#xff01; 一、树的概念及结构 1.1 树的概念 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树&#xff0c…

Qt之条件变量QWaitCondition详解

QWaitCondition内部实现结构图&#xff1a; 相关系列文章 C之Pimpl惯用法 目录 1.简介 2.示例 2.1.全局配置 2.2.生产者Producer 2.3.消费者Consumer 2.4.测试例子 3.原理分析 3.1.辅助函数CreateEvent 3.2.辅助函数WaitForSingleObject 3.3.QWaitConditionEvent …

URL编码算法:解决特殊字符在URL中的烦恼

引言&#xff1a; URL编码算法是一种将URL中的特殊字符转换为特定格式的编码方式。它在网络传输中起到了保护数据安全与完整性的重要作用。本文将深入探讨URL编码算法的优点与缺点&#xff0c;并介绍它在Web开发、网络安全等方面的应用。 URL编码解码 | 一个覆盖广泛主题工具…

HiveSQL——不使用union all的情况下进行列转行

参考文章&#xff1a; HiveSql一天一个小技巧&#xff1a;如何不使用union all 进行列转行_不 union all-CSDN博客文章浏览阅读881次&#xff0c;点赞5次&#xff0c;收藏10次。本文给出一种不使用传统UNION ALL方法进行 行转列的方法,其中方法一采用了concat_wsposexplode()方…

C++:stack queue - 容器适配器

C&#xff1a;容器适配器 容器适配器概念stackqueuedeque 容器适配器概念 容器适配器是在C标准库中提供的一种容器的封装。它们提供了一种统一的接口&#xff0c;使得不同类型的容器可以以相似的方式被使用。容器适配器有三种类型&#xff1a;栈&#xff08;stack&#xff09;…

springboot742餐厅点餐系统

springboot742餐厅点餐系统 获取源码——》公主号&#xff1a;计算机专业毕设大全

山东交警将全力做好恶劣天气交通秩序管控疏导工作,确保春运畅通

2月5日&#xff0c;山东省人民政府新闻办公室召开新闻发布会&#xff0c;针对春节期间人流、车流急剧增长态势以及不良天气的影响&#xff0c;公安交管部门将全力做好恶劣天气交通秩序管控疏导工作。 省公安厅交通警察总队总队长刘大为介绍&#xff0c;2024年春运各类交通出行需…