Python个人收入影响因素模型构建:回归、决策树、梯度提升、岭回归

news/2024/11/15 20:39:08/文章来源:https://www.cnblogs.com/tecdat/p/18372421

全文链接:https://tecdat.cn/?p=37423

原文出处:拓端数据部落公众号
“你的命运早在出生那一刻起便被决定了。”这样无力的话语,无数次在年轻人的脑海中回响,尤其是在那些因地域差异而面临教育资源匮乏的年轻人中更为普遍。在中国,这种现象尤为明显:没有生在大城市的他们,从小便需面对教育资源的不平等,有人甚至在初中阶段便被迫放弃学业,转而在流水线旁成为普工;而即便有幸成为家乡的佼佼者,他们长大后也可能因户口问题而选择低薪工作,或是将收入的一半付给房东。

然而,当我们跨越国界,来到高度发达的英国,却发现类似的问题依旧存在。一项发表在《城市经济学》上的研究,通过对英国7500名居民长达近二十年的追踪调查,揭示了原生城市规模对个人成年后收入的深远影响。研究发现,与曼彻斯特和利物浦相比,伦敦出生的居民平均收入更高,这一发现无疑加剧了小城市居民的心理压力。
然而,研究并未止步于揭示这些机制。为了进一步量化各变量对收入的影响,研究者们应用了复杂的计量方法,对变量进行了细致的解构。他们发现,“学习”(即工作后获得的知识和经验积累)在原生城市规模对收入的影响中占据了高达65.2%的比重,而教育和当前工作城市规模则分别占据了10.9%和8.6%的比重。
这一发现为我们提供了宝贵的启示:尽管出身无法选择,但个人仍然可以通过持续学习和努力来提升自己的收入水平。在数据时代,我们更应该重视数据的作用,通过构建精确高效的模型来预测和解释个人收入的差异。
为此,我们通过分析多种影响收入的数据,构建影响个人收入的模型,并据此为相关部门提供建议。我们采用了多种建模方式,包括简单线性回归、决策树、梯度提升、岭回归等,并通过测试数据回测选出了表现最好的模型。
最终,我们发现教育、工作经验、婚姻状况、是否在城市生活以及智商和母亲教育程度的交互作用等因素对个人收入具有显著影响。这一发现不仅为我们理解个人收入的差异提供了新的视角,更为我们制定相关政策提供了有力的支持。

任务/目标

通过分析多种影响收入的数据,构建影响个人收入的模型,实现对个人收入预测,并根据模型结果为教育部等相关部门提出建议。

数据源准备

有相关数据的详细披露,需要将目标数据爬取或直接下载。

数据清洗

但经过python相关函数的检测,我们发现很多空数据,由于模型和数据涉及的影响变量较多,所以出现空数据的个体无法参与到所有因素的建模中。

但若去掉携带空数据的个体后数据分布发生变化,则使用去掉空数据后建立的模型就无法准确预测整体样本,面对这个问题,我们对比了完整样本和去掉空数据后样本的柱状图,证明了去掉空数据并不会影响样本的整体分布。

构造

样本中一共收集了935个人的16项不同的相关数据。

去掉空数据后新样本一共收集了663个人的16项不同的相关数据。

划分训练集和测试集

由于相关部门的数据披露并没有时间顺序,所以为了建立真实和无偏差的测试模型,我们以8:2的分数形式对数据样本切分训练集和测试集。具体做法如下:

我们一共有663份相关数据,随机抓取530份数据作为training data(即训练数据),剩下的133份数据作为testing data(即测试数据)。

探索性分析

利用成对分析和热力图,对大量的变量和数据之间的关系进行观察和预测。

建模

由于变量数过大,我们对训练数据采用了简单线性回归、多重线性回归、线性样条、带多个节点的线性样条、多项式回归、变量间相互作用、对数转换、指数转换等多个建模方式,并定义前向选择和逆向选择的函数,协助进行高效建模,最终从20多个模型中选取表现最好的前八个模型。

模型选取

通过使用测试数据进行回测,选择在测试数据中表现最好的模型

在此项目中,经过测试数据的回测,选出的8个模型中,标记为log-interaction11的模型表现最好,表现最好的前三个模型拟合情况对比图如下:

log-interaction11采用正常最小二乘方回归的方程结果如下:

教育、工作经验、是否结婚和是否在城市生活的交互作用、年纪和知识面的交互作用、智商和母亲教育程度的交互作用、教育和是否为黑种人的交互作用组成了最终预测工作水平准确度最高的模型。

Python对工资影响的回归分析及偏差探讨|附代码数据

接下来,我们将尝试估算多接受一年教育对小时工资的影响。进行教育实验是非常困难的。你不能简单地将人们随机分配到 4 年、8 年或 12 年的教育。

model_1.summary().tables[1]

对工资与教育年限进行简单回归,估计出回归系数 β1 为 0.0536,95% 置信区间为 (0.039, 0.068)。这意味着该模型预测每增加一年教育,工资将增长约 5.3%。

仅考虑教育变量的简单模型可能存在偏差。首先,数据并非来自随机实验,接受更多教育的人与接受较少教育的人可能不可比。其次,从对世界的理解来看,受教育年限更多的人可能有更富裕的父母,工资随教育增加可能只是家庭财富与教育年限相关的反映。此外,教育也可能因让人远离劳动力市场而降低工资。

引入其他变量的多元回归分析

(一)变量选择
在数据中,我们可以获得其他变量,如父母教育程度(meduc、feduc)、个人智商(IQ)、工作经验(exper)、任期(tenure)以及婚姻和种族的虚拟变量等。

 
  1.  
    kappa = t_tilde.cov(y) / t_tilde.var()
  2.  
    kappa
 

 

通过引入这些变量进行多元回归分析,估计出在控制其他因素后,每增加一年教育与小时工资增长 4.11% 相关。这证实了简单模型存在偏差且高估了教育的影响。

model_2.summary().tables[1]

遗漏变量或混杂偏差

偏差来源
以教育对工资的影响为例,未控制智商等变量时,教育对工资的影响也包含了其他未纳入模型变量的影响,这是遗漏变量偏差的来源,即混杂变量影响了处理变量和结果变量。

 
  1.  
    g.edge("Police", "Violence", color="blue")
  2.  
     
  3.  
    g
 

因果图分析

  1. 以教育对工资的影响为例,因果图显示教育导致工资,同时智商也导致工资和教育。如果不考虑智商变量,其对工资的影响会通过与教育的相关性使教育对工资的影响看起来比实际更高,这是正偏差的例子。
  2. 以警察对城市暴力的影响为例,城市警力增加与暴力增加相关,但可能存在混杂变量犯罪,犯罪导致更多暴力和更多警力。如果不考虑犯罪变量,犯罪对暴力的影响会通过警力使警力看起来增加了暴力,这是负偏差的例子。

回归与随机对照试验解决偏差的方法
回归分析通过将混杂变量固定在一定水平来比较处理变量的影响,而随机对照试验通过切断混杂变量与处理变量的联系来解决偏差问题。

Python机器学习:回归、决策树、梯度提升、岭回归薪资预测分析|附代码数据

接下来本文对 数据集进行了全面分析,旨在基于年龄、工作年限、性别和职位等多个特征来预测薪资。通过广泛的数据处理、可视化以及机器学习方法,我们获得了有价值的见解并构建了具有高准确性的预测模型。

数据处理流程定义

(一)使用 ColumnTransformer 进行数据预处理
确定分类特征和数值特征,分类特征包括 “Gender”(性别)、“Education Level”(教育水平)、“Job Title”(职位),数值特征包括 “Age”(年龄)、“Years of Experience”(工作年限)。

 
  1.  
    import numpy as np
  2.  
     
  3.  
    cat_features = ['Gender', 'Education Level', 'Job Title']
  4.  
    num_features = ['Age', 'Years of Experience']
 

定义超参数分布字典

为不同的回归模型定义超参数分布字典,例如 “LinearRegression”(线性回归)和 “DecisionTreeRegressor”(决策树回归器),设置不同的超参数取值范围,如线性回归的截距设置以及决策树回归器的最大深度、最小分割样本数和最小叶子样本数等。

 
  1.  
     
  2.  
     
  3.  
    param_distributions = {
  4.  
    'LinearRegression': {
  5.  
    'regressor__fit_intercept': [True, False],
  6.  
    },
  7.  
    'DecisionTreeRegressor': {
  8.  
    'regressor__max_depth': [None] + list(np.arange(1, 21)),
  9.  
    'regressor__min_samples_split': np.arange(2, 21),
  10.  
    'regressor__min_samples_leaf': np.arange(1, 21)
  11.  
    },
 

使用 RandomizeSearchCV 进行超参数优化

将数据集划分为训练集和测试集,对于不同的模型进行超参数优化,记录每个模型的最佳模型、最佳参数和最佳得分。

 
  1.  
    best_models = dict()
  2.  
    best_params = dict()
  3.  
    best_score = dict()
  4.  
    X_train, X_test, y_train, y_test = train_test_split(X.values, y.values, train_size=.8)
  5.  
    for model in param_distributions.keys():
 

模型性能评估与可视化

(一)绘制模型性能图
通过比较不同模型的性能,可以看出 “GradientBoostingRegressor”(梯度提升回归器)具有最佳性能。

(二)绘制预测结果与真实目标变量的散点图

以 “GradientBoostingRegressor” 模型为例,使用最佳模型对测试集进行预测,然后绘制预测结果与真实目标变量的散点图,以直观地展示模型的预测效果。

 
  1.  
    model = 'GradientBoostingRegressor'
  2.  
    y_pred = best_models[model].predict(X_test)
  3.  
    # y_pred = pipeline.predict(X_test)
 
 

总结

尽管命运或许在某种程度上被决定了,但我们仍然可以通过自己的努力和持续学习来改变自己的命运。在大数据的助力下,我们有望更加精准地预测和解释个人收入的差异,为每个人创造更加公平和美好的未来。

关于分析师

在此对 Greata Xie 对本文所作的贡献表示诚挚感谢,她在悉尼大学完成了金融、商业分析专业的硕士学位,专注数据采集、清洗、可视化和分析等领域。擅长 Python、SQL。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/785040.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1092. 最短公共超序列

非常好的一道理解LCS本质的题目class Solution { public:string longestCommonSubsequence(const string str1, const string str2) {int m = str1.length();int n = str2.length();// 创建一个二维数组来存储LCS的长度vector<vector<int>> dp(m + 1, vector<in…

【转】管理者,一定要有道-法-术的思维模型

我有一个观点:作为管理者,必须要有“道法术”的思维模型。 具备这样的思维,才能穿透表象,站在更高的维度去解决管理上遇到的问题。 今天,我们一起来聊聊这个话题。 术:学工具、学方法 问题来了,什么是术? 王东岳老师说:术,就是看你能驱动什么。 简单来说,术,就是工…

更漂亮的 7-Zip

搬运更漂亮的 7-Zip(并添加了 Jar 关联) - 『精品软件区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn 作为一款强大的开源压缩软件,7-Zip 的 UI 实在是太丑了,依然是上个世纪的风格。这里通过修改源代码并重新编译的方式,更换了它的文件管理器图标和文件…

Summarization with Langchain

教程链接 — https://youtu.be/w6wOhSThnoo 摘要是自然语言处理(NLP)的一个关键方面,它能够将大量文本浓缩成简洁的摘要。LangChain,作为NLP领域中的一个强大工具,提供了三种不同的摘要技术:stuff、map_reduce和refine。每种方法都有其独特的优点和局限性,使它们适用于不…

R绘图(06)——带errorbar的柱状图

每次找R绘图美化都很麻烦,索性自己写个笔记慢慢补充绘图美化的指令### 生成数据 ### # 设置种子以获得可重复的结果 set.seed(222) # 生成字符序列 "AAAABBBB" char_sequence <- c("A", "A", "A", "A", "B", …

WPF:MVVM的由来与属性绑定的过程

WPF:MVVM的由来与属性绑定的过程 1、MVVM (1)MVVM是什么? ​ MVVM(Model-View-ViewModel)是一种软件架构设计模式MVVM模式。有助于分离应用程序的业务逻辑和用户界面层,使得开发过程更易于管理,同时也便于单元测试。Model? 现实世界中对象的抽象结果。 View? View=U…

异或的常用性质

性质 1. 百度百科给的最主要的性质就是归零和结合,其他的就都是拓展了。 例题:P1469 2. \(a \bigoplus b<=a+b\) 关于这个不等式比较好的理解为异或就是不进位的加法 例题:luoguP5514 应用 异或哈希 异或跟hash一样,也是会发生冲突的 例如:$1 \bigoplus 2 = 5 \bigopl…

虚拟机的搭建

1.Download VMware Workstation 下载和安装关注微信公众号“软件安装大神”找到虚拟机VMware16 2.DownloadingKali Linux 搜索官网:Kali Linux | Penetration Testing and Ethical Hacking Linux Distribution 解压,然后在第一步 虚拟机VMware16安装成功后打开第二部解压文…

AcWing 1078. 旅游规划 (DFS找树的直径+直径中点性质求解,无DP)

原题链接 题目描述算法 引用自 树的直径 - OI-Wiki:若树上所有边边权均为正,则树的所有直径中点重合 证明:使用反证法。设两条中点不重合的直径分别为 \(\delta(s,t) 与 \delta(s,t)\),中点分别为 \(x\) 与 \(x\)。显然,\(\delta(s,x) = \delta(x,t) = \delta(s,x) = \del…

世上最好的共享内存(Linux共享内存最透彻的一篇)------宋宝华

共享单车、共享充电宝、共享雨伞,世间的共享有千万种,而我独爱共享内存。 早期的共享内存,着重于强调把同一片内存,map到多个进程的虚拟地址空间(在相应进程找到一个VMA区域),以便于CPU可以在各个进程访问到这片内存。现阶段广泛应用于多媒体、Graphics领域的共享内存方…

P7706 文文的摄影布置 题解

一道不错的线段树题P7706 文文的摄影布置 题解 原题 读完题,发现是线段树。单点修改+区间查询。 不过查询的值有些奇怪,就是了,我们考虑用线段树维护这个 ψ 值(下称待求值)。 对于一个区间的待求值,大概有四种情况:如上图四种情况分别为:待求值最大值在左区间 待求值最大…

信息学奥赛初赛天天练-71-NOIP2016普及组-基础题2-进制转换、二进制转八进制、八进制转二进制、二叉树数组存储、寻址空间

NOIP 2016 普及组 基础题2 4 以下不是 CPU 生产厂商的是( ) A Intel B AMD C Microsoft D IBM 8 与二进制小数 0.1相等的八进制数是( ) A 0.8 B 0.4 C 0.2 D 0.1 9 以下是 32 位机器和 64 位机器的区别是( ) A 显示器不同 B 硬盘大小不同 C 寻…