中文文本分类特征提取方法的研究与实现(3)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

摘要

随着计算机网络技术的迅猛发展，文本信息数量呈现指数级的增长。文本分类作为一种有效的文本信息组织管理技术能很好地组织管理海量、异构的信息。在文本分类基础上通过信息检索、过滤等技术可以帮助人们从海量信息中快速，准确地查找相关知识信息，提高生活工作效率，因此对文本分类技术的研究具有较大的研究意义和实用价值。

本文首先对文本分类关键技术进行研究分析，在此基础上对特征提取方法进行了重点研究，提出了新特征提取方法，并利用新特征提取方法设计开发了一个中文文本分类系统，实验结果分析表明文中提出的特征提取方法取得了良好的实验效果。本文主要的研究工作如下：

① 分析了对文本分类过程及关键技术，研究了文本特征特征提取方法。通过对基于过滤模型的几种常用特征提取方法分析比较后，发现文本特征提取过程中负相关特征与弱相关特征对特征提取质量好坏易产生较大的干扰。为了避免这种干扰，本文提出一个基于类别正相关和类别强相关的特征提取方法 SP (Strong Correlation and Positive Correlation，正相关与强相关)，S P方法通过优先选择正相关特征和强相关特征，有效地减少了负相关特征和弱相关特征的干扰，从而保证高质量文本特征的提取。

② 设计与实现了一个中文文本分类系统，把文本分类的特征提取方法SP应用到中文文本分类系统。文中对中文文本分类系统进行了总体设计和功能模块设计，分析研究汉语语法分析工具包ICTCLAS与全文检索工具包Lucene，并将二者结合作为中文文本分类系统搭建解决方案，最终实现了中文文本分类系统。

③ 在中文文本分类系统上对特征提取方法进行大量的实验。把本文提出的新特征提取方法与常用的DF、CHI、CC等特征提取方法进行对比实验，利用多项常用的分类效果评价指标对实验结果进行综合性评价分析。实验结果表明SP方法通过提取高质量的特征词，构造低维的特征向量，能够有效地降低特征空间维度，在中文文本分类中表现出良好的特征提取效果，反映了类别间的差异度。

关键词：文本分类，特征降维，特征提取，类别正相关性，类别强相关度

共19页:

中文文本分类特征提取方法的研究与实现(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档