文本分类概述(4)

2019-05-24 12:17

also although always am among amongst amoungst amount an and another any anyhow anyone anything anyway anywhere are around as at back be became because become becomes becoming been before beforehand behind being below beside besides between beyond bill both bottom describe detail do done down due during each eg eight either eleven else elsewhere empty enough etc even ever every everyone everything everywhere except few fifteen fify fill find fire first five for former formerly forty found four from front full hereby herein hereupon hers herself him himself his how however hundred i ie if in inc indeed interest into is it its itself keep last latter latterly least less ltd made many may me meanwhile might mill mine more moreover most no nobody none noone nor not nothing now nowhere of off often on once one only onto or other others otherwise our ours ourselves out over own part per perhaps please put rather re same see seem seemed seeming seems serious something sometime sometimes somewhere still such system take ten than that the their them themselves then thence there thereafter thereby therefore therein thereupon these they thick thin third this those though three through throughout thru thus to together too top toward we well were what whatever when whence whenever where whereafter whereas whereby wherein whereupon wherever whether which while whither who whoever whole whom whose why will with within without would yet you your yours yourself yourselves 表3-1 （续）

另外，英文中存在各种时态、语态及名词的单复数，故英文还可对文本中各

单词进行取词根(stemming)处理，就是依据一定的语法规则剥离各个单词的后缀，得到表明单词基本含义的词根。例如，answer, answered, answers的词根都为answer,则统一用answer来表示。目前常用的是Porter的取词根算法[115]。但也有研究说取词根会降低分类性能[116]，但取词根还是得到了很广泛的应用，因为该方法可以有效降低特征维数。

虽然以词作为特征的词表示法丢失了大量的文本信息，但依然能够在文本分类中取得很好的效果，因而得到了广泛使用。 3.2.1.2词组

以词组作为特征的表示法称为词组表示法，该方法与词表示法非常相似，唯一不同的是特征粒度变大了。显然，用词组作为特征可以更多地包含文本信息，但分类结果却不尽人意[10,117]。

主要原因在于词组表示法虽然提高了特征的语义质量，但却降低了特征的统计质量。和词特征相比，词组特征具有较多的特征、较多的同义或近义特征、较低的一致性以及较低的文档频率[10]。统计质量的降低只能使得特征向量更加稀疏，从而对分类性能产生影响。 3.2.1.3字符串

与词表示法和词组表示法需要依赖于语种不同，字符串(n-gram)表示法[118]是完全独立于语种的一种表示法。n-gram表示法把文本看作一个大字符串，由若干个以n个字符组成的字符串作为特征单位。在字符串表示法中，不再考虑文本的语义单位，文本只是一个由各种字符组成的字符串，由计算机根据字符长度n对文本进行分割。例如，“text categorization”被14-gram分解为包含特征“text categoriz”、“ext categoriza”、“xt categorizat”、“t categorizati”、“categorizatio”和“categorization”；“华南理工大学”被2-gram分解为包含特征“华南”、“南理”、“理工”、“工大”和“大学”。

n-gram表示法可以避免分词的工作，因此尤其适合中文等亚洲语言。但是n-gram的缺点也非常明显，存在数据噪声大、特征复杂、计算量大和易于过学习等问题。

3.2.1.4概念

在自然语言中，一义多词的现象非常普遍，比如“计算机”“电脑”“微机”表示的都是一个概念。概念具有很高的抽象性，一个概念可以对应一个词，也可以对应若干个词。从自然语言理解的角度看，采用概念作为特征是最高级的表示。

采用概念作为特征有很多好处。首先，一个概念可能对应若干个不同的词，这样将大大降低特征空间的维数，提高分类速度；其次，同义词的聚类使得该概念的权重集中，避免了权重分散带来的对该特征的削弱，从而提高分类的精度。

用概念表示文本需要有一个专门的语义词典，这就需要语言专家和各领域专家的参与，无疑将耗费大量的人力和物力。所以，用概念表示文本的想法虽然非常好，但进展并不十分理想[119]。

3.2.2特征向量

特征空间中不同特征项对文档的重要程度和对分类的贡献是不同的，因此文本分类系统在对文本进行形式化处理的时候，需要对文本的每个特征项赋权，以形成特定文本的特征向量，权重越大的特征认为对文本越重要。由于各研究者对特征重要性认识的不同，涌现出了许多特征权重计算方法，下面介绍几种常用方法，这些方法都基于Zobel和Moffat提出的假设[64,120]：

（1）IDF(Inverted Document Frequency)假设：稀有特征的重要程度不低于常见特征；

（2）TF(Term Frequency)假设：一篇文档中出现多次的特征的重要程度不低于只出现一次的特征；

（3）规范化(Normalization)假设：同样的特征匹配数，长文档的重要程度不高于短文档。

从把文本转换为若干个特征的集合到生成文本的特征向量，通常需要经过三个步骤：生成索引向量；对索引向量赋权；规范化。 3.2.2.1文本索引

设训练集有N篇文档，特征空间为T?{t1,t2,...,t|T|}，对文本dj进行索引后得到索引向量fj?(f1j,f2j,...,f|T|j)，其中，fkj表示特征tk在文本dj中的索引值。索

引值的计算通常有以下几种方式。

布尔索引是最简单的一种索引方式，fkj值的取0或1，取值方式如下：

?1,若tk在文本dj中出现fkj?? (3-1)

0,若t未在文本d中出现kj?词频索引采用特征tk在文本dj中出现的次数TFkj作为索引值：

fkj?TFkj (3-2)

对数索引也利用了特征tk在文本dj中出现的次数TFkj，计算公式如下：

fkj?log(TFkj?1) (3-3)

可以看出，无论采用何种方式计算的索引向量均为非负向量。虽然索引向量真实反映了文本中各特征项出现的情况，但由于各特征对分类的贡献不同，需要在索引向量中进一步加入类别信息，以便准确分类。 3.2.2.2特征赋权

特征赋权的方式有很多种，可以分为“均权”与“非均权”两类。顾名思义，所谓“均权”，就是研究者认为特征在整个训练集中的统计信息对分类不会产生实质性的影响，所以给索引向量中的每个特征赋以相同的权重，也就是使用原索引向量，既不突出也不抑制任何特征。而“非均权”认为特征分为主要特征和次要特征，经过赋权处理可以放大主要特征的作用，缩小次要特征的作用。

目前的研究普遍认为不同特征在分类中的贡献是不同的，一般采用“非均权”对特征加权。其中最有代表性的是“IDF(Inverted Document Frequency)权”。IDF权认为训练集中包含特征tk的文档数目越多，则该特征对分类的贡献越小，这样的特征需要受到抑制；相反，训练集中包含特征tk的文档数目越少，则该特征对分类的贡献越大，这样的特征需要被放大。设特征加权向量为g?(g1,g2,...,g|T|)，训练集中出现过特征tk的文档数为DFk，那么特征tk的加权值gk由下式计算：

gk?log(N) (3-4) DFk至此，文档dj由加权索引向量hj?(h1j,h2j,...,h|T|j)表示，hj等于索引向量fj与特征加权向量g的内积，由公式(3-5)计算。

hj?fj?g?(f1j?g1,f2j?g2,...,f|T|j?g|T|) (3-5)

3.2.2.3规范化

为了消除文档长度不同对加权索引向量h的影响，需要对h进行规范化处理，使得各特征权重落在区间[0,1]内，最终生成文本dj的特征向量

wj?(w1j,w2j,...w,|T|j)。特征tk的权重wkj的计算公式如下：

wkj?hkj?hi?1|T| (3-6)

2ij3.2.2.4相似度计算

文本表示为向量后，文本之间的距离或相似度可以通过空间中这两个向量的几何关系来度量。设有两个特征向量x?(x1,x2,...,x|T|)和y?(y1,y2,...,y|T|)。

如果特征向量是布尔向量，那么相似度函数通常采用汉明距离，定义如下：

D(x,y)?|T|??(xi?yi) (3-7)

i?1|T|如果特征向量非布尔向量，则相似度函数通常采用夹角余弦函数，定义如下：

sim(x,y)??x?yii?1|T|i?xi?1|T|2i??yi?1|T| (3-8)

2i3.3经典特征权重

在文本分类领域，通常使用Salton等人提出的TFIDF(Term Frequency and Inverted Document Frequency)公式计算特征项权重，特征tk在文档dj中的TFIDF计算公式如(3-9)所示[5]：

tfidf(tk,dj)?TFkj?log(N) (3-9) DFk其中，TFkj表示特征tk在文档dj中出现的次数，DFk表示在整个训练集中包含特征tk的文档数，N表示整个训练集中包含的文档数。该公式的直观解释为：特征tk在文档中出现的次数越高，在整个训练集中包含该特征项的文档数目越少，则该特征权重越大；反之，特征tk在文档中出现的次数越少，在整个训练集

共6页:

文本分类概述(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档