A.SAMPLE
通过观察数据,发现到及时是处理后的TOTAL5,也是一个十分庞大的数据集,所含的记录有79万条之多,由于我们的电脑配置有限,处理如此庞大的数据是十分困难的,所以,我们在这里使用了抽样节点,抽取1%的样本作为所要处理的数据。
在这里,我们使用的是分层抽样,用RESULT为0和1时分别抽样。
B.PARTITION
将数据按照6:4的比例划分训练集和验证集,方便后续分析建模与验证。 C.REPLACEMENT
REPLACEMENT节点是用来对缺失值进行处理的。
15
我们对INTERVAL的变量采用决策树的方法,对CLASS的变量采用众数的方法。
D.TRAMSFORM
通过对数据分布的观察,发现大多数的数据都是分布不均匀,不利于后续探查,所以我们对数据进行转化,根据最优原则,所以采用转化方法如下:
3.2数据建模过程——决策树
16
A.TREE 1
由于在决策树的建模过程中,缺失值的影响很小,所以直接在分层后的节点后加上TREE节点,建立模型TREE1。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:
B.TREE 2
在经过讨论后,发现虽然在决策树的建模过程中,缺失值的影响很小,但这里指的是训练集,验证集的缺失仍会对后续的建模产生影响,所以在REPLACEMENT节点后,添加TREE节点,建立模型TREE 2。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:
C.TREE3
在TRANSFORM节点后加上TREE节点,建立模型TREE3。通过多次参数探查,最后得到相对较好的一组参数。具体参数设置如下:
17
D.提升图比较
最后发现TREE2的效果最好。
3.3数据建模过程——神经网络
18
A.NET1
在TRANSFORM后添加NET节点,建立模型NET1。经过探查后,发现设置隐藏层为3效果最好。
B.NET 2
在REPLACEMENT后直接添加NET节点,建立模型。经过探查后,发现设置隐藏层为3效果最好。
C.提升图比对 NET 2的效果更好。
19