中文文本分类特征提取方法的研究与实现
组成词的可信度评价依据,对语料中相邻共现的各个字的组合的频度进行统计,计算它们的相关度。常见基于统计的分词算法有互信息统计算法,N-Gram算法,隐马尔科夫算法。其中最常用基于统计的分词算法是互信息统计算法[18]。
互信息是信息论中作为衡量两个信号关联程度的一种尺度,后来引申为描述两个随机变量间关联程度的度量。我们利用互信息公式计算字符a和字符b的互信息。通过互信息来描述字符a和字符b之间的关联程度。互信息计算公式如公式1所示。
a. 若MI(a,b)>0,则表示字符a,b之间具有可信的关联性,随着互信息值的增大,字符a,b的关联性也将增强。
b. 若MI(a,b)=0,则表示字符a,b之间关联性具有不确定性。
c. 若MI(a,b)<0,则表示字符a,b之间几乎无关联性,随着互信息值的减小,字符a,b的关联性也将减弱。
p(a,b)(1) MI(a,b) logp(a)p(b)
其中p(a)表示字符a出现的概率,p(b)表示字符b出现的概率。p(a,b)表示字符a和字符b同时出现的联合概率。MI(a,b)表示字符a与字符b的互信息值。
基于统计的分词算法也叫无词典分词算法,无须维护庞大的分词字典是该算法的一个优点。基于统计的分词算法基于语言事实,通过对真实语料库中各个文本的字符串统计,能够客观的反应各个字符在语料库中的分布规律。算法简单明了,因而基于统计的分词方法具有较好的实用性。
基于词典的分词算法、基于理解的分词算法和基于统计的分词算法三种方法各有优缺点,并不存在哪个方法更优更有效的说法。现今成熟的分词系统,通过应用的领域情况,结合实际需求,通过综合各种分词算法,起到发挥各个算法长处,互相弥补的作用。通过上述手段更好的适应和满足实际生活中的应用需求。
2.2.2 停用词删除
停用词(StopWords)指的是虽然在文本集合中出现频度很高,但是对分类毫无贡献,存在只会增大特征空间维度,增加分类运算复杂度的无用词。如语气词、副词、连词、介词等虚词。在文本分类之前,需要引入停用词表来过滤掉停用词。
停用词的建立方式可以分为人工建立和基于概率统计的自动建立停用词表。人工建立停用词表是根据语言学专家的主观判断选择某些词集或是对特定的某一应用领域选择特定的词来构成停用词表;英文停用词表,比较著名的是Van Rijsbergen[19]发表的停用词表以及Brown Corpus停用词表[20]。关于中文停用词的研究,虽然当前已有一些较好的停用词表,但其构造与选取语料相关,针对不同应用很难直接应用,目前可以查到的中文停用词表正在不断完善和扩充中。基于概