基于决策树的数据挖掘技术在电信用户流失预测的应用与研究(3)

2020-12-22 08:15

移动决策 数据挖掘 决策树

Technology/Application

技术/

应用

GSM用户

其他

入网6个月以上12个月以下用户

其他通话交往半径趋向萎缩

其他总通话时长下降趋势

其他主号通话时长下降趋势

连续两个月消费额度小于150元

其他

连续两个月主叫客服次数小于1其他

短消息主叫次数上升趋势

其他

其他有更换服务套餐历史记录

其他

流失概率81.5%

图3判断GSM用户流失的决策树模型

构建决策树的算法有很多,其中最具代表性的是ID3和C4.5算法,鉴于本文构造的训练样本数据中所拥有的属性大多是连续值,所以采用的具体算法为Quinlan的C4.5,它的思想大致如下:将给定训练集作为决策树的根节点,训练集中的记录具有标识类别的字段;利用增益比例来寻找节点上具有最大信息量的字段或分割属性,根据分割属性不同取值建立该节点的若干分支,并为所有分支子集建立对应的节点;在每个分支子集中重复建立下层分支和节点,直到节点中所有记录的类别都相同为止。这样便生成一棵完整的决策树,然后把决策树的节点的规则,利用这分裂过程转化为“如果?那么?”些规则就可以对新数据进行分类。

图3是一个判断GSM流失用户的决策树,用来对GSM用户流失进行分类,它指出一个GSM用户是否会流失。每个内部节点(方形框)代表对某个属性的一次检测。输入新的被决策记录,可以预测该记录隶属于哪个类。

似逼近,所以必须要使用生产系统的已发生离网认定的用户历史数据做样本数据进行训练学习;在训练学习过程中选择能产生最大信息增益的属性因子对输入域(属性因子集合)进行分割,得到各个决策边界的数值,这就是通过训练学习所获得的用户分类规则经验值集合。

5.模型树剪枝

构造过程得到的并不是最简单、紧凑的决策树,因为许多分枝反映的可能是训练数据中的噪声或孤立点。树剪枝过程试图检测和去掉这种分枝,以提高对未知数据集进行分类时的准确性。树剪枝方法主要有先剪枝和后剪枝。树剪枝方法的剪枝标准有最小描述长度(MDL)和最小期望错误率等。前者对决策树进行二进位编码,最佳剪枝树就是编码所需二进位最少的树;后者计算某节点上的子树被剪枝后出现的期望错误率,由此判断是否剪枝。

6.模型测试

LOCAL_RECS<=16

RAT_TOT_RECS<=2.3699999LOCAL_RECS>4

RAT_TOT_RECS<=0.28

RAT_LOCTOTREC>0.86000001

4.模型训练

决策树与其他机械学习算法一样都需要预先进行样本数据的训练学习,要保证训练后的决策树应用于真实数据处理时有最佳的工作效果和输出更具代表性的用户分类,必须要求所使用的训练样本数据要与真实数据尽可能地相

CHINANEWTELECOMMUNICATIONS

81

中国新通信


基于决策树的数据挖掘技术在电信用户流失预测的应用与研究(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:河北建设工程项目监理资料收集整理归档细则

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: