中文文本分类特征提取方法的研究与实现(19)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

列相互独立的特征词的集合，仅将文本中单词出现的频率作为文本分类的唯一依靠的信息。向量空间在简化文本表示操作的同时丢失了特征词上下文信息、文本结构信息和语义信息，而这些信息对自然语言处理往往有重要的价值。

向量空间模型是建立在文本所有的特征是相互正交的这一假设的基础之上，并没有充分考虑文本特征项之间的关联关系。由于自然语言本身具有丰富且复杂的特点，故向量空间模型基于的假设有悖与自然语言存在的客观事实。目前已经有很多改进的文本表示模型提出，但是效果并不好，由于自然语言语义的复杂性，如何寻求适合的数学模型来反映自然语言语义是众多研究者一直努力的方向。

2.4 文本特征降维

文本特征降维是文本分类过程中最核心的环节。文本特征降维技术一般可以按选取集合的不同分为:特征析取和特征提取。在上面已经提到，我们使用向量空间模型来表示文本，在实际应用中，文本集合中包含的词条高达数万，甚至更高，这就造成了特征空间的“高维性”。若使用如此高维的向量表示一个文本，绝大多数特征项都不会出现在当前表示的文本中，这样就造成了特征空间的“高稀疏性”。特征空间的“高维性”和“高稀疏性”导致了很多分类算法无法应用，即使能够应用，也严重影响了分类的准确度和时间。故文本降维技术应运而生，通过对特征空间的降维，不仅提高了分类速度，而且过滤了噪声数据，提高精度的同时还有助于解决过拟合问题[22]（基于样本文本集合中的训练集合的分类器，对样本集合中的测试集合的分类效果好，但是测试集合换成其他文本集合分类效果差）。

2.4.1 文本特征析取

特征析取也称为特征重构，特征析取是依据一定的原则将原始特征空间映射到一个新的低维特征空间，在低维特征空间中各维度特征项相互独立，集中体现了原始空间中对分类有帮助的特征信息。因此提取出来的特征集合T′是对原始特征集合T采用合并、转化、归纳等手段重构获得，T′不是T的子集。文本特征析取中常用的方法有主成分分析[23]（Principal Component Analysis ， PCA ），潜在语义索引[24]（Latent Semantic Indexing，LSI）等。

2.4.2 文本特征提取

特征提取是根据一定的特征提取度量标准从测试集合的初始特征集合中提取出相关的原初始特征子集达到降低特征向量空间维度的目的。在特征提取的过程中不相关以及冗余的特征将会被删除。特征提取作为学习算法数据预处理方法，可以很好地提高学习算法的准确性，减少学习算法耗费的时间。可以得知若学习算法使用的特征充斥着不相关性，冗余性，以及干扰性，那么学习算法的结果必定很差。在实际应用中，特征提取如何得到一个最优的特征子集是一个NP难题。

共19页:

中文文本分类特征提取方法的研究与实现(19).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档