R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

司马孚
• 阅读 78

全文链接:http://tecdat.cn/?p=31644

原文出处:拓端数据部落公众号

借着二胎政策的开放与家庭消费升级的东风,母婴市场迎来了生机盎然的春天,尤其是母婴电商行业,近年来发展迅猛。用户获取和流失是一对相对概念,就好比一个水池,有进口,也有出口。我们不能只关心进口的进水速率,却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户,在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作,要求构建一个适合他们需求的用户流失预测算法。本课题着眼于利用决策树算法和随机森林模型,对用户进行预测,判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性,之后同学可以在其他感兴趣的领域结合数据进行分析,利用此课题所学知识举一反三。

数据

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

查看可用数据源

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

用户名密码登陆


channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

data<-sqlQuery(channel,"select * from  DataMeet1$")
 
head(data)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

input:品牌 品牌 奶粉阶段(对应小孩年龄) 城市等级(1,2,3线城市)

Output

用户寿命(天) 是否流失

head(data)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

转换数据,拟合决策树模型

建立决策树预测是否流失

CARTmodel = rpart
draw.tree(CARTmodel) 

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

绘制决策树

输出决策树cp值

printcp(CARTmodel)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

根据cp值对决策树进行剪枝

cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp

prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化


CARTmodel2 <- prune(CARTmo

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

对数据进行预测

(predict(CARTmodel2,datanew.test ))

summary(CARTmodel2)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

计算混淆矩阵和准确度

tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵

(tab[1,1]+tab[2,2])/sum(tab)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

mse


mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

输出结果

CARTmodel2 

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

CARTmodel$varmportance

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

预测用户寿命.天.

CARTmodel = rpart(用户寿命.天. ~

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。

输出决策树cp值

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

根据cp值对决策树进行剪枝

prune(CARTmodel, cp= CARTmodel$cptab

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

prune(CARTmodel

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

进行预测

predict(CARTmodel

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

输出结果

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

#mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)
## [1] 7713.91

变量重要程度

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

随机森林

随机森林是属于集成学习,其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

rf <- randomForest(datanew.train$用户寿命.天.  ~ 

MSE误差


mean(predict(rf)- datanew.train$用户寿命.天.  )^2
## [1] 0.007107568

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

变量重要程度

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

plot(d,center=TRUE,leaflab='none',

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

混淆矩阵

table(predict(rf), datanew.train$是否流失  )
##    
##       0   1
##   0  84  15
##   1  23 589

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

#变量重要程度
importance(rf)

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

chaid树

CHAID是一种高效的统计分箱技术,是商业上运用最成功的算法之一。通过统计检验方法,CHAID评估潜在预测变量的所有取值,合并对目标变量而言在统计意义上同质的取值成为一个分箱,保留那些有异质性的取值为单独的分箱,然后选择最佳的预测,成为决策树的第一个分支,因此每一个子节点都是同质的,此过程继续递推直至完成整个决策树。

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

plot(ct, mai

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

ctree

是否流失

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

plot(ct,

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

混淆矩阵

table(predict(ct), datanew.train$是否流失)
##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

将结果表写进数据库里
sqlSave(channel,resul

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

最受欢迎的见解

1.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

2.R语言基于树的方法:决策树,随机森林

3.python中使用scikit-learn和pandas决策树

4.机器学习:在SAS中运行随机森林数据分析报告

5.R语言用随机森林和文本挖掘提高航空公司客户满意度

6.机器学习助推快时尚精准销售时间序列

7.用机器学习识别不断变化的股市状况——隐马尔可夫模型的应用

8.python机器学习:推荐系统实现(以矩阵分解来协同过滤)

9.python中用pytorch机器学习分类预测银行客户流失

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
10个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Wesley13 Wesley13
3年前
PPDB:今晚老齐直播
【今晚老齐直播】今晚(本周三晚)20:0021:00小白开始“用”飞桨(https://www.oschina.net/action/visit/ad?id1185)由PPDE(飞桨(https://www.oschina.net/action/visit/ad?id1185)开发者专家计划)成员老齐,为深度学习小白指点迷津。
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Android蓝牙连接汽车OBD设备
//设备连接public class BluetoothConnect implements Runnable {    private static final UUID CONNECT_UUID  UUID.fromString("0000110100001000800000805F9B34FB");
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
美凌格栋栋酱 美凌格栋栋酱
4个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
司马孚
司马孚
Lv1
人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。
文章
7
粉丝
0
获赞
0