中文文本分类特征提取方法的研究与实现(7)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

1 绪 论

本章首先阐述了文本分类的研究背景、研究意义,以及当前国内外的研究状况和研究热点,然后介绍了本文的研究目的、研究内容和论文的组织结构。

1.1 研究背景及意义

随着社会的发展,我们处于一个信息爆炸的时代,各类的文本信息数量呈指数级的增长。期刊出版方面,全世界每年出版的期刊有数十万种,并且出版量每年以上万级别递增。在图书出版方面以中国为例,2004年全国共出版图书208294种,总印数64.13亿册,并且出版量每年以数万种递增。图书馆藏书方面,2008年中国最大图书馆北京图书馆藏书达到2000多万册,平均每天接受的新书达到上万种。特别是在网络方面,随着网络技术的发展,Internet已经发展成为一个巨大的开放式、分布式的全球化信息空间,网络上的信息内容分门别类,各式各样,覆盖面极其广,包括人类社会活动中的生活,时事,经济,学习,工作各个发面的信息。当前Internet上的信息量呈亿级指数增长,惊人的信息增长速度使得人们对于海量信息的管理力不从心,海量、异构的信息中隐藏着对人类非常有帮助的知识信息,如何更好地组织管理海量、异构的信息,并且从中快速,准确的查找自己所需的相关知识信息,帮助人们提高生活工作效率,已经成为当今热点并且具有重大意义的研究课题。

文本自动分类是在给定分类体系的情况下,根据文本的内容自动将其分到—个或多个预定义类别。文本分类初期依靠人工分类方法实现,该方法不仅耗费大量人类,并且经常导致分类结果不一致,效率低下,人工分类方法已经不适应当今时代的需求。因此便产生可大量丰富的文本信息无法得到利用,而且海量的文本信息包括了结构化、非结构化、半结构化的文本信息,只有通过对文本信息组织管理,才能快速准确获得有效的相关信息,因此文本自动分类技术应运而生。文本自动分类是大规模文本信息处理的有效方法之一, 文本自动分类技术满足了人们对于信息的查准率、查全率等全面需求。

文本自动分类是一种有效的文本信息组织管理技术,以文本自动分类为基础可以实现许多与文本相关的具体应用,如信息检索,信息过滤、数字图书馆、文本数据库,因此有着广泛的应用前景和商业价值。

① 信息过滤

网络技术的迅猛发展使得网上在线文本资源数量十分庞大,并且这些文本资源具有高相似性等特征,因而对人们获取需要的相关领域的信息造成麻烦。信息


中文文本分类特征提取方法的研究与实现(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:LJY_2机器人的结构组成

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: