七、模型评估
要选出最好的模型,使用模型评估技术是非常必要的。模型评估是建模过程的子过程。有几种评估过程中的变量。
我们使用holdout和交叉验证相结合的方法。第一步,我们将数据集分为两个子集:训练数据集和测试数据集。每个观察实例被选为两个子集的机率是相等的。三分之二的数据被选为训练数据集。测试数据集独立于训练数据集。测试观察实例使用10-fold 交叉验证来建立模型。使用这种方式,将测试数据集分为10段。每一段被假定为一个测试数据平均误差率被认为是迭代十次后的最终的错误率,这个任务是由rpart()函数完成的。
八、发现和部署模型
分类模型中的部署是针对预测酚类标签中的新的对象。我们测试的模型是由predict()函数产生的测试数据集中新的对象。下面是代码和一些预测的测试数据作为示例: > sdfto?data.frame(test) > a?predict(fit,sdfto) > a
我们假设每笔贷款的预测违约概率大雨50%,然后,我们通过这段代码计算混淆矩阵: > table(predict(fit, test, type?“class”,na.action?na.pass), test[, “x19”])
表格8.2展示了由混淆矩阵计算的共同度量值。
九、总结与讨论
在这篇论文中,我们提出了确定企业信贷违约概率的有效特征值的框架,并且去衡量其重要性。这些特征值被使用来预测一年内的被标记的信贷的违约概率。违约概率的评估可以帮助银行避免预期的损失。我们是基于数据挖掘的方法和从一个大银行采集到我们需要的数据的方法来完成任务的。由于预处理阶段非常重要,并且也是一个耗时的步骤,我们使用了分类和聚类的技术让数据在有效的方式内可用。
预处理步骤之后,实现了一颗决策树用来预测被标记的新的信贷中潜在的违约概率。从选定的18个独立参数中,选择了12个最重要的来建立模型。我们使用R中的软件包来准备数据并且建立分类模型。R中的软件包在实现数据挖掘技术以及数据可视化方法上是非常有用的。
附录:选择最佳特征值预测银行的信贷违约 特征值描述
X1:公司的成立年限(年)
X2:所有权(1、公开 2、合作 3、政府) X3:类型(1、公司 2、机构)
X4:股票类型(1、公共股份 2、私人股份 3、有限公司) X5:管理人员数量
X6:管理人员的平均年龄(年) X7:管理人员总的股份 X8:资产资本的比率
X9:抵押物与信贷数目的比率
X10:在这一阶段的活动背景(0:没有任何背景 1:有背景) X11:收回借款人的义务剩余的月份 X12:抵押代码
X13:到目前为止违约的时间(年) X14:到目前为止最后支付的时间(年) X15:到期后付款(0:否 1:是) X16:以前是否违约(0:是 1:否) X17:过去的债务与以前的信用值的比率 X18:违约率与以前信用值的比率 X19:类标签(0:非违约 1:违约)
References
BCBS, 2001. The Consultative Document: The Internal Ratings-Based Approach. Bank for International Settlements.
BCBS, 2005. Working Paper No. 14: Studies on the Validation of Internal Ratings Systems. Bank for International Settlements.
BCBS, 2006. International Convergence of Capital Measurement and Capital Standards.
Breiman, L., Cutler, A., Liaw, A., Wiener, Matthew, 2012. Breiman and cutler’s random forests for classi_cation and regression. R package version 3.1-46.
Han, J., Kamber, M., 2006. Data Mining: Concepts and Techniques. Morgan Kaufmann, San Francisco. Ha¨rdle, W., Simar, L., 2006. Applied Multivariate Statistical Analysis. Springer, Berlin Heidelberg.
Lang, D.T., Swayne, D., Wickham, H., Lawrence, M., 2012. Interface between r and ggobi, R package version 2.1.19.
Maechler, M., 2012. Cluster analysis extended rousseeuw et al, R package version 1.14.2.
Murdoch, D., Chow, E.D., Celayeta, J.M.F., 2012. Functions for drawing ellipses and ellipse-like con_dence regions, R package version 0.3-7.
Tan, P.-N., Stainbach, M., Kumar, V., 2005. Introduction to Data Mining. Pearson Education, Boston.
Therneau, T.M., Atkinson, B., Ripley, B., 2010. Recursive partitioning, R package version 3.1-54. Torgo, L., 2011. Data Mining with R: Learning with Case Studies. Chapman Hall/CRC, Boca Raton. Torgo, L., 2012. Functions and data for “data mining with r” R package version 0.2.3.