中文文本分类特征提取方法的研究与实现(7)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

1 绪论

本章首先阐述了文本分类的研究背景、研究意义，以及当前国内外的研究状况和研究热点，然后介绍了本文的研究目的、研究内容和论文的组织结构。

1.1 研究背景及意义

随着社会的发展，我们处于一个信息爆炸的时代，各类的文本信息数量呈指数级的增长。期刊出版方面，全世界每年出版的期刊有数十万种，并且出版量每年以上万级别递增。在图书出版方面以中国为例，2004年全国共出版图书208294种，总印数64.13亿册，并且出版量每年以数万种递增。图书馆藏书方面，2008年中国最大图书馆北京图书馆藏书达到2000多万册，平均每天接受的新书达到上万种。特别是在网络方面，随着网络技术的发展，Internet已经发展成为一个巨大的开放式、分布式的全球化信息空间，网络上的信息内容分门别类，各式各样，覆盖面极其广，包括人类社会活动中的生活，时事，经济，学习，工作各个发面的信息。当前Internet上的信息量呈亿级指数增长，惊人的信息增长速度使得人们对于海量信息的管理力不从心，海量、异构的信息中隐藏着对人类非常有帮助的知识信息，如何更好地组织管理海量、异构的信息，并且从中快速，准确的查找自己所需的相关知识信息，帮助人们提高生活工作效率，已经成为当今热点并且具有重大意义的研究课题。

文本自动分类是在给定分类体系的情况下，根据文本的内容自动将其分到—个或多个预定义类别。文本分类初期依靠人工分类方法实现，该方法不仅耗费大量人类，并且经常导致分类结果不一致，效率低下，人工分类方法已经不适应当今时代的需求。因此便产生可大量丰富的文本信息无法得到利用，而且海量的文本信息包括了结构化、非结构化、半结构化的文本信息，只有通过对文本信息组织管理，才能快速准确获得有效的相关信息，因此文本自动分类技术应运而生。文本自动分类是大规模文本信息处理的有效方法之一，文本自动分类技术满足了人们对于信息的查准率、查全率等全面需求。

文本自动分类是一种有效的文本信息组织管理技术，以文本自动分类为基础可以实现许多与文本相关的具体应用，如信息检索，信息过滤、数字图书馆、文本数据库，因此有着广泛的应用前景和商业价值。

① 信息过滤

网络技术的迅猛发展使得网上在线文本资源数量十分庞大，并且这些文本资源具有高相似性等特征，因而对人们获取需要的相关领域的信息造成麻烦。信息

共19页:

中文文本分类特征提取方法的研究与实现(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档