基于融360数据的模型构建及用户贷款审批结果预测(4)

2019-04-15 18:49

A．SAMPLE

通过观察数据，发现到及时是处理后的TOTAL5，也是一个十分庞大的数据集，所含的记录有79万条之多，由于我们的电脑配置有限，处理如此庞大的数据是十分困难的，所以，我们在这里使用了抽样节点，抽取1%的样本作为所要处理的数据。

在这里，我们使用的是分层抽样，用RESULT为0和1时分别抽样。

B．PARTITION

将数据按照6:4的比例划分训练集和验证集，方便后续分析建模与验证。 C．REPLACEMENT

REPLACEMENT节点是用来对缺失值进行处理的。

我们对INTERVAL的变量采用决策树的方法，对CLASS的变量采用众数的方法。

D．TRAMSFORM

通过对数据分布的观察，发现大多数的数据都是分布不均匀，不利于后续探查，所以我们对数据进行转化，根据最优原则，所以采用转化方法如下：

3.2数据建模过程——决策树

A.TREE 1

由于在决策树的建模过程中，缺失值的影响很小，所以直接在分层后的节点后加上TREE节点，建立模型TREE1。通过多次参数探查，最后得到相对较好的一组参数。具体参数设置如下：

B.TREE 2

在经过讨论后，发现虽然在决策树的建模过程中，缺失值的影响很小，但这里指的是训练集，验证集的缺失仍会对后续的建模产生影响，所以在REPLACEMENT节点后，添加TREE节点，建立模型TREE 2。通过多次参数探查，最后得到相对较好的一组参数。具体参数设置如下：

C.TREE3

在TRANSFORM节点后加上TREE节点，建立模型TREE3。通过多次参数探查，最后得到相对较好的一组参数。具体参数设置如下：

D.提升图比较

最后发现TREE2的效果最好。

3.3数据建模过程——神经网络

A.NET1

在TRANSFORM后添加NET节点，建立模型NET1。经过探查后，发现设置隐藏层为3效果最好。

B.NET 2

在REPLACEMENT后直接添加NET节点，建立模型。经过探查后，发现设置隐藏层为3效果最好。

C.提升图比对 NET 2的效果更好。

基于融360数据的模型构建及用户贷款审批结果预测(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！