中文文本分类特征提取方法的研究与实现
卖完了”可切分成为“羽毛/球拍/卖/完/了”和“羽毛球/拍卖/完/了”。像这种由中文本身的二义性引起的真歧义,如果不知道上下文信息,无法做出正确的切分。
2)未登录词识别
未登录词指的是未包含在词表中但必须切分出来的新词。在现今社会中,随着Internet的高速度发展,语言在不断的发展和变化,随之而来的就是大量新词的出现,所以任何词表无法包含所有的词语。
未登录词主要包括人名、地名、机构名、产品名、简称等。以人名为例,未登录的人名很容易与常规词形成交叉型歧义。例如对 “李紫没喝一瓶酒”这句话进行切分,可能切分出“李紫没/喝/一瓶/酒/”和“李紫/没/喝/一瓶/酒/”。未登录词的识别对中文分词有着重要的作用,对未登录词的识别直接影响到最后词频的统计,如果不能很好识别未登录,则最后词频的统计结果会产生较大的偏差。目前未登录识别的准确率已经作为评价分词系统一项重要指标。
② 中文分词算法简介
随着专家学者们在中文分词领域中的研究的开展和深入,众多中文分词算法被提出来,总的来说中文分词算法可以分为三类:基于词典的分词算法、基于理解的分词算法和基于统计的分词算法。这三类方法也是现今中文分词领域研究的三个主要方向。
1)基于词典的分词算法
基于词典的算法又被称为机械匹配算法,主要思想是基于字符串匹配的机械分词,即根据一定的扫描顺序和匹配原则将待分词的中文字串与一个由人工维护的庞大分词词典中的词语进行匹配,若在词典中找到相应的字符串,则成功切分一个词。基于词典的算法由扫描方向、字符串匹配原则和分词词典三大部分构成。按照文本扫描方向的不同可对字符串进行正向匹配、反向匹配和双向匹配。按照字符串匹配原则的不同可对字符串进行最大匹配、最小匹配、逐词匹配和最佳匹配。分词词典是指人工事先建立好的分词词典和分词规则,并且需要人工经常维护更新,根据应用领域的不同,各个领域的应用会维护自己的专业词典。在实际应用中我们通常将不同的匹配方法结合使用,由于汉语单字成词的语言特点,所以基于最小匹配原则的分词方法一般很少使用。故常用的基于词典的算法有正向最大匹配方法和反向最大匹配方法。
a. 正向最大匹配方法
正向最大匹配法是一种最基本的机械匹配的分词方法,以“长词优先”为原则。正向最大匹配法的分词过程可以描述为:读入待切分语句,去除标点符号,将语句分成若干待切分段,若词典中最长词的单字个数为N,则对待切分语句段以首字为开始从左到右选取长度为N的匹配字段与字典中的词进行匹配,若匹配成功,