中文文本分类特征提取方法的研究与实现
目 录
中文摘要 .......................................................................................................................................... I 英文摘要 ........................................................................................................................................ II 1 绪 论 ......................................................................................................................................... 1
1.1 研究背景及意义 ..................................................................................................................... 1
1.2 国内外研究现状 ..................................................................................................................... 2
1.3本文主要研究内容 .................................................................................................................. 4
1.4本文的组织结构 ...................................................................................................................... 4 2 文本分类的相关技术 ......................................................................................................... 6
2.1 文本分类概述 ......................................................................................................................... 6
2.2 文本预处理 ............................................................................................................................. 6
2.2.1 中文分词 ....................................................................................................................... 7
2.2.2 停用词删除 ................................................................................................................. 10
2.2.3 词条选择 ..................................................................................................................... 11
2.3 文本表示模型 ....................................................................................................................... 11
2.4 文本特征降维 ....................................................................................................................... 13
2.4.1 文本特征析取 ............................................................................................................. 13
2.4.2 文本特征提取 ............................................................................................................. 13
2.5 文本特征加权 ....................................................................................................................... 17
2.6 文本分类算法 ....................................................................................................................... 18
2.6.1 K近邻 .......................................................................................................................... 18
2.6.2 朴素贝叶斯 ................................................................................................................. 19
2.6.3 支持向量机 ................................................................................................................. 20
2.7 分类器性能评价 ................................................................................................................... 20
2.7.1 评价方法 ..................................................................................................................... 20
2.7.2 评价指标 ..................................................................................................................... 21 3 基于类别相关的新文本特征提取方法 ................................................................. 24
3.1 文本特征提取的过程 ........................................................................................................... 24
3.2 常用的特征提取方法 ........................................................................................................... 25
3.2.1 文本频数 ..................................................................................................................... 25
3.2.2 信息增益 ..................................................................................................................... 25
3.2.3 互信息 ......................................................................................................................... 27
3.2.4 x2统计 .......................................................................................................................... 27