中文文本分类特征提取方法的研究与实现(9)

2020-12-24 16:57

中文文本分类特征提取方法的研究与实现

[4]。空间向量模型(Vector Space Model，VSM)于1970年由Salon等人提出[5]，该模型在良好的统计学方法基础上简明地对文本数据相关特性的抽象描述，成为文本分类领域的一种经典模型，至今仍被广泛应用。20世纪80年代末基于知识工程技术构建的文本分类系统是非常流行的一种文本分类方法[6]。基于知识工程技术的文本分类方法是指根据领域专家获得的知识人工指定分类的规则。这种文本分类方法的缺点在于如何将获取知识转化为分类规则。需要知识工程师和领域专家对领域知识进行良好地沟通理解，否则知识工程师对知识的理解容易出现偏差。并且基于知识工程技术的文本分类技术适应性差，由于是面向专门领域定制，故无法适用于其他领域，需重新构建文本分类系统。在20世界90年代初期由于应用的需要，以及计算机硬件性能的提升，文本分类成为信息系统学科的一个主要研究分支，在这期间基于机器学习的文本分类方法[7]成为了研究的热点，基于机器学习的文本分类方法排除了人为对分类过程产生影响的因素。该方法注重了分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上较之前的基于知识工程的文本分类方法有很大的提高，因此基于机器学习的文本分类方法成功替代了基于知识工程的文本分类方法成为文本分类领域研究和应用的经典范例。现今将语义分析方法与机器学习方法相结合进行文本分类处理成为了文本分类领域的研究热点之一。

现今，国外的文本分类技术在文本组织、电子会议、信息检索、邮件过滤等方面得到了广泛的应用[8]，文本分类技术已经进入了进入文本分类实际应用阶段阶段。其中较为成功的应用系统有：麻省理工学院（MIT）为白宫开发的邮件分类系统，Oracle和IBM公司开发的电子邮件自动分类系统，卡内基集团为路透社开发的Construe系统[9]，美国Carnegie Melton大学开发的在线文本分类系统，美国Just Research公司开发的多类别文本分类系统。

中国对文本分类的研究工作大致是从20世纪80年代开始的，中国的文本工作大致上经历了可行性探讨、辅助分类系统和自动分类系统这三个阶段。南京林业大学侯汉清先生是国内对自动分类进行探讨的第一人，1981年，侯汉清先生对自动分类进行探讨并从计算机分类检索、计算机管理分类表，计算机自动分类等几个方面对国外的研究现状进行了介绍[10]。自此掀开了国内对文本分类领域的研究热潮，中国科学院，以及以清华大学，复旦大学为首的高校在文本分类领域做了大量研究工作，并且取得了成果，开发了一系列基于知识工程技术和词典方法的文本分类系统[11]。大体上来说，中文文本分类技术还处于试验研究阶段，正在逐渐朝应用方向发展靠拢，学者们在充分认识到中文与英语的语言本质差异性，不能生搬硬套国外的研究成果。因而学者们在借鉴国外文本分类的研究策略之上，充分考虑了中文文本本身的语言特点，成功构建了中文文本分类体系。随着计算

共19页:

中文文本分类特征提取方法的研究与实现(9).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档