通俗地说要给这个最佳模型“打分”,使用score节点的评分代码,对评分数据集增加预测信息。把新的订单测试集与相关的贷款产品信息连接后,用net1模型去预测,哪些客户可能申请到贷款,哪些可能会被拒绝。每一个用户对应的观测值(部分)如下:
25
测试集中大约有9.5%的客户申请贷款的要求会被同意,其他客户申请可能会被否定。Insight的结果表给出了每个用户申请审批的预测结果,并显示出result=1即批核结果为同意的客户的id等相关个人信息和贷款产品信息,由于该数据经过特殊处理,申请被同意的客户的部分特征(如:id、年龄、职业等)不具有太高的可信度和说服力,不足以形成一个直接可观的特征群,但是本项目主要解决问题的方向是预测一批客户的贷款申请的结果,根据模型,得出每一个user_id对应的result为0还是1,有且只有两种可能,即同意申请或否定申请,因此,利用net1神经网络模型生成最终的预测结果即可。不仅是此次用于测试
26
的订单数据集,如果通过审核和检测,该模型确实良好,那么之后所有在融360平台上填写的贷款申请都可利用net1神经网络模型提前进行预测——金融机构是否会对某一申请批核通过。
5.项目评估与收获
5.1项目改进
(1)待挖掘的数据的完整性和精确度需要提高。
究其根本,一个数据挖掘项目的成功与否,很大程度上取决于待挖掘的数据集的完整性和精确度,即好的数据是成功的数据挖掘项目的起点。而我们这次项目的数据,由于在获取之前就因为涉及到其他人的隐私而被处理过,且缺失值过多,这使得数据的完整性和精确度大大降低,严重影响了我们后续的挖掘工作。
(2)对数据的预处理与清洗需要更为细致。
在本次的数据挖掘项目中,源数据共有4张表,每一张表都有很多变量,而我们根据userid和productid将四张表合并为一张表后,观测数目达到了79万之多。如何对这79万的庞大数据进行科学合理的预处理和清洗给我们提出了一个巨大的挑战。经过查阅资料和结合了我们自己的判断后,我们筛选出了一部分对结果影响作用较大的变量来构建模型。在挑选构建模型的变量的过程中,无可避免的存在疏忽和遗漏,变量的选择不准确可能在一定程度上对我们模型的有效性和准确性施加影响。
(3)对模型的解读能力需要提升
本次数据挖掘项目最终确定的最佳模型是神经网络,而我们在得到最佳模型后,缺乏对最佳神经网络模型的解读能力。确定神经网络为最佳模型的原因是我们在建模的过程中,经过不停的试探修改后,根据提升图来筛选出神经网络为最
27
优。可是在具体查看最佳神经网络模型的具体参数设置时,我们却缺乏对其进行深入解读的能力,这影响我们对该模型的再次改进和将之应用于新数据的可能性。
5.2收获
通过本次数据挖掘项目分析,我们的一大收获是对利用SAS em中的决策树、回归、神经网络来建立模型,从而对新数据进行预测的过程有了更深的认识与感触。我们深深意识到,一个好的模型的建立并非一蹴而就,而是在不断的试探过程中得到的。在试探的过程中,会出现各种各样未曾预期的差错,如我们这次的挖掘项目中有一个树的结点在参数均设置无误的情况下仍然报错,致使程序无法正常运行,这让我们百思不得其解。最后迫于无奈,我们选择了最为简单粗暴的方法,即删除这个树结点。在删除并按照原有参数设置了一个新的树节点后,新的树节点并没有报错,项目流程得以顺利运行。这让我们深深意识到,SAS em的可视化界面固然很好,为我们的操作带来了极大的便利,可是难免出现bug,因而或许掌握SAS编程语言是最为稳健有效的方法。而且,在不断的试探后得到的模型并非最佳,而是在既有条件下的相对最佳。因而,在具体建模的过程中,要怀有一颗不满足的心,要通过对每个节点的不断修改与试探,以期最终得到一个符合建模预期的模型。此外,针对我们所做的具体项目,我们了解了更多关于网络融资方面的知识,我们了解到网络融资不同于传统的银行信贷,它所涉及的因素有很多,但较传统信贷而言,它的创新点在于它更多的是收集用户在网上的行为。除此之外,网络融资还会结合用户在现实生活中的财产物资来综合构建一个模型,即将用户线上线下的状况相结合根据模型来得出是否给与用户信贷,且发送金额为多少的结论。以上这些收获对我们日后的学习生活有很大的启示!
28
参考文献
[1] Altman EI, Saunders A. Credit risk measurement: Development sover
the
last
20
years[
J]
.Journal
of
banking
&
Finance,1997(21):1721-1742.
[2] Altman EI. Financial ratios, discriminant analysi sand the Prediction
of
corporate
bank
ruptcy
[
J]
.Journal
of
Finance,1968(23):589-609.
[3] 翟小华.Credit Metrics模型及其对我国商业银行适用性思考[ J] .科学研究与实践, 2007, 22(7):10.
[4] 王春峰, 万海晖, 张维.商业银行信用风险评估及其实证研究[ J] .管理科学学报, 1998, 1(1):68-72.
[5] 王春峰, 康莉.基于遗传规划方法的商业银行信用风险 评估模型[ J] .系统工程理论与实践, 2001, 21(2):73-79.
[6] 王春峰, 万海晖, 张维.基于神经网络技术的商业银行信用风险评估[ J] .系统工程理论与实践, 1999, 19(9):24-32.
[7] 王春峰, 万海晖, 张维.组合预测在商业银行信用风险评估中的应用[ J] .管理工程学报, 1999, 13(1):5-8.
[8] 施锡铨, 邹新月.典型判别分析在企业信用风险评估中的作用[ J] .财经研究, 2001, 27(10):53-57.
29