中文文本分类特征提取方法的研究与实现
1 绪 论
本章首先阐述了文本分类的研究背景、研究意义,以及当前国内外的研究状况和研究热点,然后介绍了本文的研究目的、研究内容和论文的组织结构。
1.1 研究背景及意义
随着社会的发展,我们处于一个信息爆炸的时代,各类的文本信息数量呈指数级的增长。期刊出版方面,全世界每年出版的期刊有数十万种,并且出版量每年以上万级别递增。在图书出版方面以中国为例,2004年全国共出版图书208294种,总印数64.13亿册,并且出版量每年以数万种递增。图书馆藏书方面,2008年中国最大图书馆北京图书馆藏书达到2000多万册,平均每天接受的新书达到上万种。特别是在网络方面,随着网络技术的发展,Internet已经发展成为一个巨大的开放式、分布式的全球化信息空间,网络上的信息内容分门别类,各式各样,覆盖面极其广,包括人类社会活动中的生活,时事,经济,学习,工作各个发面的信息。当前Internet上的信息量呈亿级指数增长,惊人的信息增长速度使得人们对于海量信息的管理力不从心,海量、异构的信息中隐藏着对人类非常有帮助的知识信息,如何更好地组织管理海量、异构的信息,并且从中快速,准确的查找自己所需的相关知识信息,帮助人们提高生活工作效率,已经成为当今热点并且具有重大意义的研究课题。
文本自动分类是在给定分类体系的情况下,根据文本的内容自动将其分到—个或多个预定义类别。文本分类初期依靠人工分类方法实现,该方法不仅耗费大量人类,并且经常导致分类结果不一致,效率低下,人工分类方法已经不适应当今时代的需求。因此便产生可大量丰富的文本信息无法得到利用,而且海量的文本信息包括了结构化、非结构化、半结构化的文本信息,只有通过对文本信息组织管理,才能快速准确获得有效的相关信息,因此文本自动分类技术应运而生。文本自动分类是大规模文本信息处理的有效方法之一, 文本自动分类技术满足了人们对于信息的查准率、查全率等全面需求。
文本自动分类是一种有效的文本信息组织管理技术,以文本自动分类为基础可以实现许多与文本相关的具体应用,如信息检索,信息过滤、数字图书馆、文本数据库,因此有着广泛的应用前景和商业价值。
① 信息过滤
网络技术的迅猛发展使得网上在线文本资源数量十分庞大,并且这些文本资源具有高相似性等特征,因而对人们获取需要的相关领域的信息造成麻烦。信息