随机森林(2)

2020-05-08 08:44

Forestes—RC是将随机特征进行线性组合，然后再作为输入变量来构建随机森林的方法。随机选择L个输入变量进行线性的组合得到新的特征（不同的L值对应不同的特征）。在每个节点上，随机选出L个变量v1，v2,......vl 及L个随机数

ki做不同的线性组合

lV??kivi,ki?[?1,1]i?1l。一般的，对于给定的集合Ｍ具有Ｏ

（M）种不同的输入变量的组合，为此我们仅仅考虑L=3的情形。由于袋外数据估计依赖F的选择，F=2时接近最小值，分类效能会随着F的增大而增大，但是相关性不会有明显的增加。所以再大的数据集上，一般选择F=8可以给出较好的效果。这种方法的优点如下：

可以处理具有不同量纲的输入变量的数据集。在打烊本的数据输入集上有最佳的表现。精度与Adaboost的精度最接近。（4）基于输出构建随机森林

装袋法和助推法通过改变输入输出来构建扰动训练集，他们都降低了误差。如果仅仅只是对输出进行扰动，是否可以得到相似的性能。我们研究了两种随机化输出的方法。一种是输出拖尾法，指的是将高斯噪声加入到输出过程中，另一种是输出浮动法，指的是改变某一个或者若干个输出的分类的标签改变的程度是由一个称为浮动率的实值参数来衡量的。浮动输出法与拖尾法不同的是，输出浮动依赖于浮动率的选则。共同点是两种方法都可以进行回归和分类而且效果都好于袋装法。

基于输出构建的随机森林的一个重要特征是能计算单个特征的重要性。对特征重要性的度量是基于以下的富有启发的思路：当对一个特征加入噪声之后，RF的准确率将会发生变化，如果加噪声后的袋装估计的误差率大幅度的增加，就说明该特征的重要性较高。将每个特征的袋外估计的增幅都算出来之后，进行比较，其中增幅最大的一个就是最重要的一个。 Dietterrich的研究表明，当训练集结果标签的一小部分被随机的改变时，Adaboost的精度会降低，而袋装法和随机分裂选择都对噪声有很强的免疫力。由于输出结果中往往混入噪声，鲁棒性是防止噪声的一个理想性质。Dietterrich的试验如下：每次改变二十分之一的标签（注入百分之五的噪声），在试验中一次数据集中随机分出的百分之十的检测集，将剩余的作为训练集，首先在该训练集上进行，然后将训练集中的百分之五的分类标签更改作为新的训练集进行新的运算。针对AdAaboost 森林—RI，森林—RC三种，将这一过程重复50次并且将50次的检测结果平均，百分比的增加是因为考虑噪声的缘故。至于两种随机森林，我们采用的特征是Breiman的试验中已经证明了具有最低的误差集合。考虑到运算时间长度，只选择了九个较小的数据集。针对这九个数据集合他们列出了由噪声引起的误差的增量。

由引入噪声导致的误差率的增加数据集 Adaboost F_RI F_RC Glass 1.6 0.4 -04 Breast cancer 43.2 1.8 11.1 Diabetes 6.8 1.7 2.8 Sonar 15.1 -6.6 4.2 Ionosphere 27.7 3.8 5.7 Soybean 26.9 3.2 8.5 Ecoli 7.5 7.9 7.8 Votes 48.9 6.3 4.6 Liver 10.3 -0.2 4.8 在百分之五的噪声的水平下，Adaboost表现显著地不好，然而随机森林总体表现的比较稳定，变化较小。Adaboost表现出了不同寻常的数据依赖性，在glass与ecoli还有diabetes三个集合中，Adaboost受噪声影响最小。实验表明，错误标签将导致错误分类。总之，Adaboost因在乎放大具有噪声的事件的权重而有偏颇；随机森林不会集中权重于具体的子集，因此噪声对其影响较小。（5）基于随机选择的特征子空间构建随机森林

由随机选择的子空间来构建随机森林的方法是依赖于一个自主的，伪随机的从给定的特征空间选择少量维数的过程。在每一个传递中，都是惊醒一次这样的选择，并且子空间是固定的，这以子空间中的所有的点在没有选定的维数中都对应一个个值。所有的样本被添加到这一个子空间中，并且利用别的样本被添加到同样的子空间，并利用相应的树进行分类。、对于已给定的n维空间可以做2种那样的选择，对于每一个选择都可以构建一个决策树。如果子空间是在数的内部变化，也就是说每一次的分割中采用不同维数的特征的话，就可以得到更多不同的树。在选择维数的时候利用随机性只是便于找到可能性。在每一个选定的子空间上构建的树，都是利用所有的数据充分分割得到的。因此，它们都能够正确的认识训练集中的那些被假设为没有模糊性的样本。对于与训练集样本只是在没有选中的特征是上的不同的点来说，每棵树的分类是不变的，这样的每棵树都以不同的方式生成一个类。在高维的特征空间中大量的子空间就可以提供比实际需要多的选择。这样，在多数的其他类型的分类器都在饱受够面性造成的痛苦的时候，随机选择的子空间来构建随机森林的方法可以以高维数作为一个特征。随机选择的子空间来构建随机森林的方法随着它的构造的复杂化会提高整体的精度。随机选择的子空间来构建随机森林的方法是一种并行学习的算法。即随机选择的子空间来构建随机森林的方法中的每一颗决策树的生成都是独立的。这就是得它能够适应于快速学习的并行实现，在一些实际问题中快速学习是备受关注的。还有就是，因为这里没有山可以爬，所以就没有陷入举步优选的困境。将利用子空间得到的森林和其他方式得到的随机森林进行了比较，得到这样的结论：在实验中多用到的四个数据集中随机选择的子空间来构建随机森林的方法明显要由于单的分类效果，随机选择的子空间来构建随机森林的方法在相关的低维空间上也能够正常的工作。将随机选择的子空间来构建随机森林的方法与步步为营的方法、助推法进行比较，结果表明虽然就独立树而言，步步为营法、助推法这些利用冲采样办法得到的树有时会有更好的精度，但是对于多棵树而言，随机选择的子空间来构建随机森林的方法的镜度是最优的。随机森林算法的优点：

对于很多种资料，它可以产生高准确度的分类器。它可以处理大量的输入变量。

它可以在决定类别时，评估变量的重要性。

在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。

n它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。

它提供一个实验方法，可以去侦测 variable interactions 。对于不平衡的分类资料集来说，它可以平衡误差。

它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。

随机森林算法的应用

随机森林作为一个有效快捷的分类器，被应用到很多的领域上和专业内。举例如下：

（1）随机森林在经济中的应用在经济迅猛发展的今天，企业的信用已经成为一个备受关注的问题，尤其是在银行的贷款业务中，能够准确的评估企业的信用就意味着能够有效地回收贷款。因此建立能够准确评估企业信用的模型成为了一个研究的热点。由于目前国内的信用研究评估学者采用的指标也各不相同，因此专家建议，采用适当的学习算法确定信用评估中的指标的重要性，并在此基础上进一步确定评估模型所需的指标体系。由于信用评估模型的数据特征很多、噪声很大、而随机森林特备适合对于高维度空间进行特征选择，当噪声出现的时候也能表现出较好的性能，并且随机森林还有一个显著地特征是能够计算单个特征的重要性，所以将随机森林应用到了评估模型指标体系确定中。

（2）随机森林在文档检索中的应用随着信息的发展，信息处理已经成为人们获取有用信息不可缺少的工具。随机森林中的数据挖掘的功能是其他分类方法不能比拟的。随机森林在文档检索中的应用算法如下：

首先，建立向量模型，采用给定的权重计算方法，所有的样本用词向量表示。其次，构造随机森林分类器。

最后，利用随机森林进行分类，把测试集作为上一步训练得到的模型的输入，最终由投票来决定各实例的类标签。（3）随机森林在医学诊断上的应用

随机森林自身的结构决定了它能够处理具有很多弱输入的数据集。而这种弱输入的数据集在医院诊断里是最常见的。因此将随机森林引入到医学诊断中是一个必然的趋势。随机森林是由多个分类器组合得到的组合分类器，是一种能够提高分类标准率的方法。将自助法采样、未剪枝的二叉树分类应用到多普磁共振的图像分割技术中。为了精确地测试随机森里吗的分类效果，引入了加拿大里尔神经学学院的数据采用了DSC来计算随机森林的分割效果。随机森林在多普磁共振的图像分割的应用中显示出实现简单、速度快、精度高的特点。是一种有前景的多通道图像分割方法。因为在这以应用中没有考虑到体素之间的相关性，所以随机森林受噪声影响的程度较大。随机森林的展望

随机森林作为一种非常快捷的机器学习的方法在分类和回归中都有重要的应用。虽然它的回归和分类的效果已经达到了相当的水平，但是并能睡随机森林就没有再发展的空间了我们今后的工作是找到改善随机森林的方法；进一步发展新的或完善已有的支持随机森林的软件；将随机森林应用到更广阔的范围上。

共2页:

随机森林(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档