R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

news/2024/11/19 1:34:46/文章来源:https://www.cnblogs.com/tecdat/p/18198891

全文链接:http://tecdat.cn/?p=31644

原文出处:拓端数据部落公众号

借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个适合他们需求的用户流失预测算法。本课题着眼于利用决策树算法和随机森林模型,对用户进行预测,判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性,之后同学可以在其他感兴趣的领域结合数据进行分析,利用此课题所学知识举一反三。

数据

image.png

 
 
查看可用数据源

image.png

用户名密码登陆

 
 

channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

 
 
data<-sqlQuery(channel,"select * from  DataMeet1$")head(data)

image.png

input:品牌 品牌 奶粉阶段(对应小孩年龄) 城市等级(1,2,3线城市)

Output

用户寿命(天) 是否流失

 
 
head(data)

image.png

转换数据,拟合决策树模型

建立决策树预测是否流失

 
 
CARTmodel = rpart
draw.tree(CARTmodel) 

image.png

绘制决策树

输出决策树cp值

 
 
printcp(CARTmodel)

image.png

根据cp值对决策树进行剪枝

 
 
cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cpprune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝

image.png

 
 

CARTmodel2 <- prune(CARTmo

image.png

对数据进行预测

 
 
(predict(CARTmodel2,datanew.test ))summary(CARTmodel2)

image.png

计算混淆矩阵和准确度

 
 
tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵(tab[1,1]+tab[2,2])/sum(tab)

image.png

mse

 
 

mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

image.png

输出结果

 
 
CARTmodel2 

image.png

 
 
将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

 
 
CARTmodel$varmportance

image.png

预测用户寿命.天.

 
 
CARTmodel = rpart(用户寿命.天. ~

image.png

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

输出决策树cp值

image.png

根据cp值对决策树进行剪枝

 
 
prune(CARTmodel, cp= CARTmodel$cptab

image.png

 
 
prune(CARTmodel

image.png

进行预测

 
 
predict(CARTmodel

image.png

输出结果

image.png

 
 
#msemean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)
 
 
## [1] 7713.91

变量重要程度

image.png

随机森林

随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

 
 
rf <- randomForest(datanew.train$用户寿命.天.  ~ 

MSE误差

 
 

mean(predict(rf)- datanew.train$用户寿命.天.  )^2
 
 
## [1] 0.007107568

image.png

变量重要程度

image.png

 
 
plot(d,center=TRUE,leaflab='none',

image.png

混淆矩阵

 
 
table(predict(rf), datanew.train$是否流失  )
 
 
##    
##       0   1
##   0  84  15
##   1  23 589

image.png

 
 
#变量重要程度
importance(rf)

image.png

image.png

chaid树

CHAID是一种高效的统计分箱技术,是商业上运用最成功的算法之一。通过统计检验方法,CHAID评估潜在预测变量的所有取值,合并对目标变量而言在统计意义上同质的取值成为一个分箱,保留那些有异质性的取值为单独的分箱,然后选择最佳的预测,成为决策树的第一个分支,因此每一个子节点都是同质的,此过程继续递推直至完成整个决策树。

image.png

 
 
plot(ct, mai

下载.png

image.png

ctree

是否流失

image.png

 
 
plot(ct,

image.png

混淆矩阵

 
 
table(predict(ct), datanew.train$是否流失)
 
 
##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

 
 
tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred

image.png

 
 
将结果表写进数据库里
sqlSave(channel,resul

the-secret-to-great-health-1339038575-thumb-1536x1536.webp

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/708011.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python金融时间序列模型ARIMA 和GARCH 在股票市场预测应用|附代码数据

原文链接:http://tecdat.cn/?p=24407 最近我们被客户要求撰写关于金融时间序列模型的研究报告,包括一些图形和统计输出。 这篇文章讨论了自回归综合移动平均模型 (ARIMA) 和自回归条件异方差模型 (GARCH) 及其在股票市场预测中的应用 ( 点击文末“阅读原文”获取完整代码数…

R语言中绘图设置不输出绘图内容

001、正常绘图plot(1:10, cex = 2, pch = 19) 002、不输出绘图内容plot(1:10, cex = 2, pch = 19, type = "n") 。

AnimationClip获取关键帧信息

1,关键帧数据都保存在AnimationCurve上,所以首先要获取到这个public static AnimationCurve GetAnimCurve(AnimationClip clip, string path, string propName) {EditorCurveBinding[] bindings = AnimationUtility.GetCurveBindings(clip);foreach (var b in bindings){if (…

Dism壳 (做系统的启动盘 多系统版本install.wim合成 界面化)

做系统优盘的时候不断的dism来dism去有些烦了 做了个小工具可以代替bat了... 没做异常处理 开始预览镜像把素材拖进去开始制作流程点击空动作后会出现创建的动作类型 其中合成就是把多个系统搓在一起用的 上面的索引代表的正是双击看到的那些信息的索引 输入对应索引然后空格分…

项目管理之八大绩效域------笔记(三)

18.3 开发方法和生命周期绩效域跟开发方法,项目交付节奏和生命周期相关的活动和职能.一、预期目标:①开发方法与项目可交付物相符合;②将项目交付与干系人价值紧密关联;③项目生命周期由促进交付节奏的项目阶段和产生项目交付物所需的开发方法组成。(项目周期的设计符合项目的…

CSAPP第二章

gcc指定不同的C语言版本 注意寻址和字节顺序讲的, 对象的地址都是从小地址开始算起, 而所谓大端法就是高位字节在前; 小端法则是低位字节在前 注意: 等号上的小圆点的组合表示"被定义为"的意思 反码有+0和-0, -0就是全为1的位模式, 负数的反码就是对应正数所有位取反…

R语言中判断数值是否带有小数点

001、不为整数> a <- 5.324 > floor(a) == a ## 截断后不相等, 说明带有小数点部分,即不为整数 [1] FALSE 002、是整数> b <- 324 > floor(b) == b ## 截断小数点后仍然相等,说明是整数 [1] TRUE 。

poj 3061 Subsequence

题目链接: 来自罗勇军《算法竞赛》书中的习题。 题意:给长度为 \(N\) 的数组和一个整数 \(S\),求总和不小于 \(S\) 的连续子序列的最小长度。 方法一:尺取法 主要思想为:当 \(a_1, a_2 , a_3\) 满足和 \(\geqslant S\),得到一个区间长度 \(3\), 那么去掉开头 \(a_1\),剩…

汇编语言基础及编译原理(网安)

汇编语言基础及编译原理 二进制基础 程序的编译 汇编与链接从c语言到可执行程序 源代码.c 编译 汇编代码.s 汇编 目标文件.o 链接(静态库直接拷贝,动态库运行时通过动态链接方式加载) 可执行文件(p)x86机器指令入门 栈 一种先进后出的数据结构 被用于保存函数的局部(保存…

SkyWalking 单机安装 + 集成springboot

一、下载地址 https://skywalking.apache.org/downloads/ 需下载安装包:SkyWalking APM (v9.6.0) (新版本 Booster UI 已集成在 SkyWalking APM中)apache-skywalking-apm-9.6.0.tarJava Agent (v9.1.0)apache-skywalking-java-agent-9.1.0.tar二、安装 2.1、安装SkyWalking …

R语言中小数点如何实现进位

001、round,四舍五入> a <- 5.345 ## 舍去 > round(a) [1] 5 > b <- 5.824 ## 进位 > round(b) [1] 6 002、round,四舍五入指定小数位数> a <- 8.426532 > round(a, 1) ## 保留一位小数,四舍五入 [1] 8.4 > round…

C122 李超树合并+DP CF932F Escape Through Leaf

视频链接:C122 李超树合并+DP CF932F Escape Through Leaf_哔哩哔哩_bilibili C65【模板】线段树合并 P4556 [Vani有约会]雨天的尾巴 - 董晓 - 博客园 (cnblogs.com) CF932F Escape Through Leaf#include <iostream> #include <cstring> #include <algorith…