中文文本分类特征提取方法的研究与实现
2 文本分类的相关技术
2.1 文本分类概述
文本分类是一个有监督的学习过程,文本自动分类是在给定分类体系的情况下,根据文本的内容自动将其分到一个或多个预定义类别。文本分类的过程实际上是一个映射的过程,即根据预定义的类别中的文本数据信息总结归纳出分类的规律性,根据这个规律性将未标明类别的文档映射到预定义的类别中,该映射可以是一对一映射,也可以是一对多映射[14]。文本分类是模式分类和自然语言处理的交叉学科,因此模式分类的算法能够应用到文本分类中,而且它与文本语言关系密切,在这点上与普通模式分类有所区别。
文本分类过程总的分为训练过程阶段和分类过程阶段。根据文本分类过程中涉及到的相关技术环节可将文本分类过程细分为:文本预处理、文本表示、文本特征降维、文本特征加权、分类方法的选择和分类性能评价五个部分。文本分类流程如图2.1:
图2.1 文本自动分类过程
Fig.2.1 The Progress of Text Classification
2.2 文本预处理
文本预处理将不规范的文本信息转换成能够让计算机处理的文字信息,将非结构化的文本转换成能够让计算机处理的结构化文本。文本预处理过程的工作主要