浅谈基于内容管理系统中内容分类实现方法的研究(2)
2012-06-24 00:11
假设特征向量由n个特征参数x,x,…,x组成聚类分析按照一定的准则,将这些特征向量点划分为若干个群。聚类也用于将一个内容的集合划分为子集,也就是类。每一类内的对象之间都比该类对象与属于其它类的对象之间具有更大的相似性。
芬兰学者T.Kohonen提出一种可以使得输入信号映射到低维空间,且保持相同特征的输入信号在空间上对应邻近区域的学习方式,称为Kohonen自组织特征映射(self-organizing feature maps, SOFM)也称Kohonen自组织神经网络。 Kohonen自组织神经网络是一种前馈型网络。在这种类型的神经网络中各神经元接受前一层的输入,并输出给下一层,没有反馈。节点分为两类,即输入单元和计算单元,每一计算单元可有任意多个输入,但只有一个输出。前馈网络可分为不同的层,第I层的输入只与第I-1层的输出相连,输入和输出节点与外界相连,而其它中间层则称为隐层。
前馈型网络,由于Kohonen自组织特征映射网络除了具备以下主要性能,因此采用Kohonen自组织神经网络来实现内容的聚类。①对输入数据有聚类作用,并可用聚类中心代表原输入,起到数据压缩作用。②保持拓扑有序性,输入中特性相似的点映射后在空间上是邻近的。③分布密度匹配,原数据中分布密的区域在映射图上对应较大的区域,分布稀的则对应的区域也较小。
自组织网络采用没有指导的学习过程,不必给定应有的输出,训练数据只有输入而没有输出,网络只靠输入模式本身的特征,根据一定的判断标准自行修改单元连接的强度,使权矢量在输入向量空间中的分布近似于样本的分布。这也就是为什么采用自组织神经网络来解决内容的分类问题的原因和依据,因为在对内容进行聚类前,可以分成什么样的类以及不同的内容归属的类别本来就是未知的。
3 实现的步骤及方法
在此研究一种利用智能技术得到内容的分类结构的方法。该方法通过人或统计工具对文本内容进行预处理,将文本内容以标准化的特征向量表示,然后利用Kohonen自组织特征映射网络实现内容的自动聚类。现将对文本内容进行聚类的方法与步骤简单描述如下:
3.1 用标准的矢量形式表示文本内容。要实现内容的自动聚类,首先要把待聚类的内容集用标准的矢量形式表示出来。由于给不同的文本内容建立关键字是可行的,而且关键字又是最易于代表文本内容语义的,因此可以通过文本内容的关键字作为中间桥梁将内容表示成标准的矢量形式。用标准的矢量形式表示文本内容,这是利用神经网络实现内容的自动聚类的基础。
3.2 选择样本文档。Kohonen网络采用的是无监督学习算法,因此在通过该网络对内容进行聚类前需要选择样本内容作为训练集,使自组织网络学习如何对内容进行聚类。样本的选择应当具有代表性与广泛性。
3.3 初始化网络的输入节点、输出节点以及连接权值。将以n个关键字或文本特征表示文本内容的n维矢量作为输入向量,同时生成含有m个输出节点的二维映射。
3.4 将代表文本内容的特征向量输入到网络中。
3.5 在输出节点中选择最佳匹配节点。计算输入节点与所有的输出节点权值的接近程度,选择距离最小,即输出节 点权值与输入值最接近的节点作为获胜节点。
3.6 调整权值。调整获胜节点及其邻域的节点的权值,从而使这些输出节点的权值与输入值更接近。
3.7 标注代表不同类的输出节点。不断重复以上过程,学习算法结束后,各输出节点的权值显示了聚类中心,将不同的类加以标注,以示区分。经过训练的网络可以用上述同样的方法对新的文本内容进行聚类。
3.8 对分类结果中包含大量输入样本的类别,递归应用以上步骤,继续在大类下划分更小的类。
浅谈基于内容管理系统中内容分类实现方法的研究(2).doc
将本文的Word文档下载到电脑
下载失败或者文档不完整,请联系客服人员解决!