中文文本分类特征提取方法的研究与实现(18)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

② 向量空间模型

向量空间模型（Vector Space Model,VSM）由Gerard Salton和McGill于1969年提出，向量空间模型具有简单、高效的特点，是信息检索领域最经典的文本表示模型。在实际应用中，向量空间模型成功地运用于著名的SMART系统中。现在多数文本分类方法都采用向量空间模型。

向量空间模型利用文本特征向量表示文本，在该模型中，用文本集合中的词条作为表示文本的特征项,所有特征项构成表示文本的特征向量，文本空间被视为一组词条向量所张成的向量空间。假设一个文档集合D包括n个文档，文档集合表示为D {d1,d2,d3,.....,dn}，文本集合中所有词条表示为T (t1,t2,t3,...,tk)，tn表示为文本集合中的特征词条，每个文档特征项对应一个权值，每个文档中特征项分布的差异性，使得特征项的权值不同，则每个文本都可以由特征向量Wdn {wt1,wt2,wt3,...wt,k唯一表示，}Wdn表示文本dn的特征向量，wtk表示特征词tk在文本dn中对应的权值。向量空间模型的构造过程如图2.2所示：

图2.2 向量空间模型构造过程

Fig.2.2 The Process of Creating Vector Space Model

向量空间模型在知识表示上的优越性，使其成为一种被广泛使用的文本表示模型，它将文本集合中的文档转化为空间向量，在向量空间中，每个文本以空间中的点的形式存在，简化了文本表示形式，方便计算各个文本间的关系，如相似度等。由于布尔模型不能很好体现文本特征的重要程度，本文亦将向量空间模型作为文本表示模型，向量空间模型的产生提高了自然语言文本的可操作性和运算能力，从而为文本处理领域提供了良好理论基础。

向量空间模型是不考虑特征词出现的位置、次序以及特征词在文本中的上下文关系的词袋（Bag of Words）文本表示模型。在向量空间模型中文本被视为一系

共19页:

中文文本分类特征提取方法的研究与实现(18).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档