中文文本分类特征提取方法的研究与实现(15)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

则该匹配字段作为一个词被切分出来，若匹配失败，则将该匹配字段的最后一个字去掉，剩下的字符串重新组成新的匹配字段再进行匹配，一直匹配失败则重复上述过程直到成功切分出一个词。对正向最大匹配过程循环执行，直到切分出语句中所有词。

b. 反向最大匹配法

反向最大匹配方法与正向最大匹配方法相似，不同之处在于匹配方向相反，反向最大匹配方法的分词过程可以描述为：读入待切分语句，去除标点符号，将语句分成若干待切分段，若词典中最长词的单字个数为N，则对待切分语句段以段位字为开始从右到左选取长度为N的匹配字段与字典中的词进行匹配，若匹配成功，则该匹配字段作为一个词被切分出来，若匹配失败，则将该匹配字段的最前一个字去掉，剩下的字符串重新组成新的匹配字段再进行匹配，一直匹配失败则重复上述过程直到成功切分出一个词。对正向最大匹配过程循环执行，直到切分出语句中所有词。

基于词典的分词算法的思想原理简单易于实现，无需考虑相关的语义信息，关键在于维护一个包含足够大的词典，基于词典的分词算法的不足在于匹配长度较难选择，若匹配长度过短，语句的切分完整性和准确性无法保证，若匹配长度过长，将会增加算法的运算复杂度，降低了分词的效率。由于缺乏统一标准的词集支持，因此基于词典的分词方法存在着交叉型歧义和组合型歧义的问题。

2）基于理解的分词算法

基于理解的分词算法是通过句法、语义分析，让计算机获取关于句法、语义信息，从而通过人工智能方式模拟人对句子的理解。在分词的过程中，利用句法、语义信息来处理词语歧义的情况。基于理解的分词算法包含三个主要部分：分词子系统、句法语义子系统和总控部分。

通过总控部分的协调处理控制，分词子系统在进行歧义情况处理时可以得到从句法语义子系统输出的有关句法，语法以及语义信息，从而准确的进行分词。这个过程完成了计算机模拟人理解句子语义的过程。

基于理解的分词算法需要使用大量的句法、语义信息。由于中文知识的复杂性，难以将中文知识转化为计算机可理解的形式，因此目前基于理解的分词系统还处在实验阶段。

3）基于统计的分词算法

基于统计的分词算法以语言事实为依据，将词是稳定的字的组合作为前提，从概率论的角度出发，认为在上下文中，相邻字的联合概率越高，即字与字相共现的频度越高，则越可能组成一个词。

基于统计的分词算法通过建立数学统计模型，以字与字相邻共现的概率作为

共19页:

中文文本分类特征提取方法的研究与实现(15).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档