中文文本分类特征提取方法的研究与实现
机硬件技术,机器学习以及自然语言处理技术的快速发展,国内学者们已经研发了一系列的自动分类系统。例如,中科院研发的中文文本智多星分类系统、东北大学图书馆研发的图书分类专家系统、山西大学刘正瑛等人研发的金融自动分类系统、清华大学吴军研发的自动分类系统。文本分类技术现今急需在合理应用的实践过程逐步改善算法进而提高文本分类性能
虽然国内外研究者在文本分类领域理论研究取得一系列成果,并在实际应用中有不错的表现,但是文本分类技术在实际应用中仍然存在一系列亟待解决的问题,例如对海量文本集合如何进行快速并且准确分类的问题,如何让分类器解决语言兼容性的问题,如何在噪声环境中去除噪声达到优化分类性能目的等一系列问题。另外在特征空间降维,文本表示以及利用语义信息对文本内容进行分析进而增强分类算法性能等方面,需要做大量的研究工作。
1.3 本文主要研究内容
本文的主要研究内容包括以下三个方面:
① 本文通过对文本分类相关技术的研究分析,在此过程中重点研究分析了特征提取关键技术。通过对现有特征提取技术进行对比分析,结合类别正负相关性和类别强弱相关度的思想,提出了一种基于类别相关的新特征提取方法。
② 开发基于开源工具包Lucene[12]与ICTCLAS[13]的中文文本分类系统,支撑后续实验环节的顺利进行。首先研究分析系统需求,接着以需求为出发点,通过研究Lucene和ICTCLAS寻求满足系统需求的契合点,在此基础上制定需求关键功能解决方案,然后对系统进行模块设计,最后实现系统。
③ 在中文文本分类系统上对本文提出的新特征提取方法与常用的特征提取方法进行多组对比实验。利用多项常用的分类效果评价指标对多组对比实验结果进行综合性评价分析,验证本文提出方法的可行性和有效性。
1.4 本文的组织结构
第一章首先对文本分类的相关研究背景及意义进行介绍,接着对国内外文本分类技术的研究现状进行分析,最后明确指出本文主要研究内容及组织结构。
第二章着重对文本分类关键技术进行介绍和分析。首先明确了文本分类的概念,接着简要地介绍了文本分类过程。最后结合文本分类过程详细介绍了文本预处理、文本表示模型、文本特征降维方法、文本特征加权、文本分类算法和分类器性能评价等一系列与文本分类相关的技术。
第三章通过对现有特征提取技术进行对比分析,结合类别正负相关性和类别强弱相关度的思想,提出了一种基于类别相关的新特征提取方法。