购物车算法(7)

2019-04-22 16:16

c. 一笔要被分类的新资料案例I

2. 将I指定为某个概念节点的数据范例，并且使得平均类别相似分数S最小，则该案例I就可以被归类至此分类至此概念节点，完成分类的任务。类别相似度计算公式如下：

FR(C) = 2/(N*(N-1)) * Σ Sim(a,b)

FR(C) : 为某一类别C的类别相似分数 N: 为类别C内所有的案例数

Σ Sim(a,b): 为类别C内所案例间彼此相似度分数的总合 Sim(E1,E2) = E1 INT E2 / ((E1 INT E2) + (E1 DIF E2)) Sim(E1,E2): 为两个案例间的相似度 E1,E2: 为二个个别的案例

INT: 代表二案例之间的交集，即，具有相同属性数据的个数 DIF: 代表二个别案例中，不同属性数据的个数

关于交集与差集个数的计算，对于类别型的属性数据，只需判断彼此是否相等即可，对于数值型的属性数据，则以彼此数值差的绝对值除以储存在母节点所纪录该类别的标准偏差，来求得，因此可以同时针对数值型及类别型资料进行建模与分类。

本研究关于案例式概念学习的部份，是以明尼苏达大学计算机系Roiger教授所发展的程序为建模的工具，以Excel软件做为运作的平台，透过VBA程序的撰写，做为接口的设计与建模操做的工具。并依之前判定树算法增益比值的计算后所列因子的值做为输入值，以山崩与否做完计算的输出值(为零或一的输出)。

四、贝式分类器(Bayes Classfier)

贝式分类器系统计方法的一种，提供一个简单但强而有力的监督式分类技术。此模式假设所有的输入属性彼此间是独立，而且具有同等的重要性，虽然这样的假设并不是很正确，但在实际运用上仍可提供可接受的结果，是一个相当被广泛应用的监督式分类技术。其方法是建立在贝氏理论的基础(Bayes Theorem) 上，说明如下：

P(H|E)?P(E|H)P(H)P(E)其中H是要被检定的假设，E是有关假设的证据。

由分类观点来看，被检定的假设是应变量，代表被预测的类别，证据是由输入的属性值所决定，P(H|E)是H为真的情况下得到证据E之条件机率。P(H)是先期机率(a priori probability)，表示任何证据出现之前的假设机率。对于数值数据的处理，贝式分类器是以机率密度函数来计算条件机率，假设某属性值为常态分布时，条件机率计算如下：

1f(x)?e?2?x为属性值

?(x??)22?2其中，e为指数函数；μ为给定属性的平均值；σ为属性类别的标准偏差；

本研究关于贝氏分类器的部份，为自行撰写的VB.Net程序，除了计算分类的类别外，并可输出隶属类别的机率值，以供模式整合之用。

五、预测型模式之整合

为了对地震山崩机制能有更全面性的了解，本研究尝试对现有的资料做最佳的利用，分别对向量式、网格式二种数据进行分析，以OLAP技术进行数据的了解，并且选用三种分别代表数学式、逻辑式及距离式具互补性、代表性的数据探勘技术以及贝氏分类器进行模式的建立，希望以更广泛的数据探勘面向对研究区之空间数据库进行研究。分述如下；

对于模式的选择，主要是基于预测能力、解释能力以及所需耗费的成本三方面来考虑，但很少有模式能同时达到三项要求。没有一种技术是十全十美，之前所列的各个建模技术，各具代表性、特色、优缺点，在知道他们的特性之后，予以兼容并蓄可以达到互补的作用，对于本研究来说，可以提供从多种角度来观察数据、萃炼知识。 1、各预测模式优缺点比较 (1)判定树算法优点：

＊可以产生易于了解的规则：这可以说是使用本技术最大的理由，我们希望藉由法则的产生，提供决策者对于山崩的引发机制能有更直觉的了解，而不是一堆数字，方便他迅速做出决策。

＊建模与预测迅速：在本研究三个建模技术中，决策数不论在建模或预测上，均比其他二类建模技术迅速甚多。

＊可以处理数值型及类别型变量：对于本研究某些类别型的变量，如地质条件，不需转换即可使用。

＊具有找出最佳变量的能力：不但可以知道各个变量对于结果的影响程度，更重要的是，可以提供其他模式对于变量挑选的参考，本研究以判定树算法做为第一个建模的技术，正是基于此项考虑。

缺点：

＊对于预估型的工作，如连续变量的预测，较不适宜(彭文正，2001)。＊当类别太多时，容易犯错(彭文正，2001)。

＊多个输出属性是不被允许，输出属性必须被分类(Roiger and Geatz, 2002)。

＊较不稳定，当属性的选择影响所有子树时，在训练数据中的些微变化，将会导致在树中各个选择点有不同的属性选择。

＊ Openshaw(1997)则认为判定树在地理课题上的应用，使用于解释过去发生了什么的能力强过于对未来的预测。因此，他认为地理学者，特别是计量学家及人文地理学者应该正视这样的技术为领域带来的找出潜在规则好处。

(2) 类神经网络优点：

＊可以处理的问题领域很广。

＊纵使处理很复杂非性线的领域，还是可以得到很好的结果。＊可以处理含有大量混乱的输入数据(彭文正，2001)。

＊ Openshaw(1997) 认为可以处理过去被计量地理学所排除的地理研究，甚至超越过去传统计量地理学使用传统计量方法所获得的成果。他甚至认为类神经提供地理学一个通用、「终极」、「one-stop-shop」的建模技术。

缺点：

＊最为人诟病的地方就是，它是一个黑箱作业的模式，无法对于它的预测结果做合理的解释，无法提供决策者直觉的决策参考。＊可能会过早产生一个较差的结果，需要多方的尝试错误。＊无法挑选最重要的参数，训练时间耗时。

(3) 案例式概念学习优点：

＊结论容易推测，但无法给予原始数据完整的面貌。

＊只要评估距离的函数与组合功能定义好的话，可以运用在任何数据

型态上，甚至是非关系数据库上。

＊能够在多变量的情况下运作良好(彭文正，2001)。＊训练数据组容易建立。

＊对于输入及训练数据错误及噪声的容忍度较高。缺点：

＊训练数据组需要大量的数据。

＊当原始训练数据中，若类别内的数据分布过于分散，则预测时不易获得良好的成效。

＊建模与预测耗时是三种方法中成本最高的。

2、整合模式

在数据探勘的项目中不宜拘泥单一算法的改进，而丧失了其他算法可能带来不一样的看法与知识增益。Weiss and Indurkhya (1998)、Berry and Linoff(2000)及Roiger and Geatz(2002)均认为如果预测能力是最高追求目标的话，则采用结合数个模式来运作或结合其运算结果，可以获得令人满意的答案。

整合的方式可以有两种，一种是垂直整合，将数个具有互补功能的模式整合成单一个较强的模式，所获得的答案只有一个。另一种做法为水平式的整合，分别使用数个方法来做预测，各自获得答案，最后的答案是透过整合数个模式之答案而获得。

水平整合上常见的做法，系针对单一演算模式，利用靴带式引导建模法(Bagging)将训练资料切割成大小相等的数个次训练数据集，再以各个次训练数据集来建立多个模式，最后再将各个模式的预测结果以投票的方式来决定，当被预测为某分类获得多数票时，则认定为该分类。当预测的结果为数值数据时，则使用各个模式的预测值加总平均。这样的做法虽然简单，但因各模式的效能可能参差不齐，原本较佳的模式可能因而被较差的模式所降低，而且仅针对单一演算模式。本研究采垂直与水平且多种演算模式整合并用的做法，先以判定树算法做为垂直整合方式，挑选具影响力的因子，再以水平整合方式，分别求得各个演算模式预测所得到分布于

共8页:

购物车算法(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档