中文文本分类特征提取方法的研究与实现
② 向量空间模型
向量空间模型(Vector Space Model,VSM)由Gerard Salton和McGill于1969年提出,向量空间模型具有简单、高效的特点,是信息检索领域最经典的文本表示模型。在实际应用中,向量空间模型成功地运用于著名的SMART系统中。现在多数文本分类方法都采用向量空间模型。
向量空间模型利用文本特征向量表示文本,在该模型中,用文本集合中的词条作为表示文本的特征项,所有特征项构成表示文本的特征向量,文本空间被视为一组词条向量所张成的向量空间。假设一个文档集合D包括n个文档,文档集合表示为D {d1,d2,d3,.....,dn},文本集合中所有词条表示为T (t1,t2,t3,...,tk),tn表示为文本集合中的特征词条,每个文档特征项对应一个权值,每个文档中特征项分布的差异性,使得特征项的权值不同,则每个文本都可以由特征向量Wdn {wt1,wt2,wt3,...wt,k唯一表示,}Wdn表示文本dn的特征向量,wtk表示特征词tk在文本dn中对应的权值。向量空间模型的构造过程如图2.2所示:
图2.2 向量空间模型构造过程
Fig.2.2 The Process of Creating Vector Space Model
向量空间模型在知识表示上的优越性,使其成为一种被广泛使用的文本表示模型,它将文本集合中的文档转化为空间向量,在向量空间中,每个文本以空间中的点的形式存在,简化了文本表示形式,方便计算各个文本间的关系,如相似度等。由于布尔模型不能很好体现文本特征的重要程度,本文亦将向量空间模型作为文本表示模型,向量空间模型的产生提高了自然语言文本的可操作性和运算能力,从而为文本处理领域提供了良好理论基础。
向量空间模型是不考虑特征词出现的位置、次序以及特征词在文本中的上下文关系的词袋(Bag of Words)文本表示模型。在向量空间模型中文本被视为一系