基于融360数据的模型构建及用户贷款审批结果预测(4)

2019-04-15 18:49

A.SAMPLE

通过观察数据,发现到及时是处理后的TOTAL5,也是一个十分庞大的数据集,所含的记录有79万条之多,由于我们的电脑配置有限,处理如此庞大的数据是十分困难的,所以,我们在这里使用了抽样节点,抽取1%的样本作为所要处理的数据。

在这里,我们使用的是分层抽样,用RESULT为0和1时分别抽样。

B.PARTITION

将数据按照6:4的比例划分训练集和验证集,方便后续分析建模与验证。 C.REPLACEMENT

REPLACEMENT节点是用来对缺失值进行处理的。

15

我们对INTERVAL的变量采用决策树的方法,对CLASS的变量采用众数的方法。

D.TRAMSFORM

通过对数据分布的观察,发现大多数的数据都是分布不均匀,不利于后续探查,所以我们对数据进行转化,根据最优原则,所以采用转化方法如下:

3.2数据建模过程——决策树

16

A.TREE 1

由于在决策树的建模过程中,缺失值的影响很小,所以直接在分层后的节点后加上TREE节点,建立模型TREE1。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:

B.TREE 2

在经过讨论后,发现虽然在决策树的建模过程中,缺失值的影响很小,但这里指的是训练集,验证集的缺失仍会对后续的建模产生影响,所以在REPLACEMENT节点后,添加TREE节点,建立模型TREE 2。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:

C.TREE3

在TRANSFORM节点后加上TREE节点,建立模型TREE3。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:

17

D.提升图比较

最后发现TREE2的效果最好。

3.3数据建模过程——神经网络

18

A.NET1

在TRANSFORM后添加NET节点,建立模型NET1。经过探查后,发现设置隐藏层为3效果最好。

B.NET 2

在REPLACEMENT后直接添加NET节点,建立模型。经过探查后,发现设置隐藏层为3效果最好。

C.提升图比对 NET 2的效果更好。

19


基于融360数据的模型构建及用户贷款审批结果预测(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2015四川公务员申论范文赏析:空杯归零生存智慧

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: