中文文本分类特征提取方法的研究与实现(17)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

率统计的自动建立是基于词频信息构建停用词表，或者从初步的分词结果中得到部分停用词，然后在之后的分词过程中不断更新并根据切分结果进行验证。基于概率统计的自动建立主要通过采取熵、联合熵和基于TF/IDF词语KL分布的重采样技术自动获取停用词表。

2.2.3 词条选择

在向量空间模型中，空间向量由文本的特征项构成，未做特征选择之前文本集合中所有词条都可以作为表示文本的特征项。由于文本集合中的词汇量庞大，导致文本特征空间经常高达几万维，甚至更高。不能体现文本内容信息的虚词对文本分类无贡献，若作为文本特征用于文本分类将产生负面影响，因此应被视为是噪声数据。

词条选择，对文本特征空间进行压缩，能够减少存储空间，提高文本分类准确度，降低运算复杂度，提高程序效率。所以在预处理中进行词条选择作为特征空间初降维最有必要性。所以我们通过选择能表示文本内容信息的名词、动词，剔除一些对类别没有贡献或者贡献很小的虚词。因此对文本词条的过滤，可看作特征空间的初步降维，具有必要性。

我们通过对文本集合中的文本进行分词并加上词性标注，并且运用正则表达式(Regular Expression)进行匹配选择，将句子中能代表文本内容的实词如名词、动词的等选择出来。

2.3 文本表示模型

文本可以看出是一个数量庞大的字符串，并且由于文本结构的复杂多样性，在实际应用文本分类技术的过程中，需要从文本中提取出能代表文本内容的特征，并且将其转化为计算机能够处理的结构化数据形式，从而使得提取的文本特征能够直接应用于文本分类算法，使得计算机能够高效的处理文本信息。在提取文本特征的时候在减少数据处理量的同时要尽可能的保留文本中的语义信息。现有文本分类技术通常有两种文本表示模型[21]，即布尔模型和向量空间模型。

① 布尔模型

布尔模型(Boolean Model)是一种基于集合理论和布尔代数理论的分类模型，布尔模型可以看作是向量模型的一种特例，根据特征项在文档中出现与否，特征项值只能取1或0。若某一特征在文本当中出现，则该特征在当前文本当中的值取1，否则，该特征在当前文本中的值取0。布尔模型不能很好体现文本特征的重要程度，通常情况下布尔模型的效果不如其他文本表示模型。但某些情况下，使用布尔模型表示文本进行分类所得到的效果并不比以其他文本表示模型差。基于布尔模型的常用文本分类方法包括关联规则方法、决策树方法和Boosting方法。

共19页:

中文文本分类特征提取方法的研究与实现(17).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档