中文文本分类特征提取方法的研究与实现
过滤技术通过对网上文本信息的筛选过滤获取自己需要的信息,屏蔽自己不感兴趣的信息,解决了获取有效信息的难题。基于以上描述我们可知信息过滤是二类的分类问题,将用户感兴趣的文本信息筛选出来主动推送给用户,将户不感兴趣的信息过滤掉,达到屏蔽无用信息的目的。
② 信息检索
信息检索将把大量的文本信息根据主题进行层次化分类,有效地对大量文本信息进行组织管理,简化了信息检索过程。如果按照类别,运用文本自动分类技术对信息检索结果进行分类区分,能够提高检索的查准率。目前很多Web搜索引擎站点都使用了WEB文档层次化分类组织。
③ 数字图书馆
在网络技术迅猛发展的过程中,数字图书馆应运而生,对图书进行数字化、快速有效的管理。在对图书馆中图书进行分类时,图书管理员无法准确掌握各个图书类别信息,又由于人工分类容易产生分类结果不一致性,所以文本自动分类技术便被应用于数字图书馆,进行图书分类管理,能够使得图书被客观准确地分类。
④ 文本数据库
伴随着文本信息量的迅速增长,组织、存储、查询文本信息已经无法满足文本数据库的管理。文本分类数据库管理需要多层次的服务支持,如数据挖掘等。而文本自动分类是文本数据挖掘的基石,是文本信息本身组织管理的有效手段之一,也是数据挖掘研究的重要支撑技术。
因此,对文本分类的研究具有极其重要的理论意义和广阔的应用前景,能够创造巨大社会效益以及商业价值。
1.2 国内外研究现状
Sebastiani在文献[1]中在对文本分类发展历程的总结中指出国外的文本分类技术研究经历了四个发展阶段:第一阶段,在1958年至1964年之间主要进行文本分类技术的可行性研究;第二阶段,在1965年至1974年之间主要进行文本分类的实验研究;第三阶段,在1975年至1989年之间文本分类技术进入文本分类实际应用阶段;第四阶段,1990年至今文本分类技术进入基于因特网的自动文本分类研究阶段。
文本自动分类的研究始于20世纪50年代末,H.P.Luhn率先结合词频统计的思想进行文本分类,在这一领域进行了开创性的研究[2]。Maroon于1961年发表了有关文本自动分类的第一篇论文[3],对文本分类领域产生了深远的影响,至此以后许多学者如Sparck,Salton等都在文本分类领域进行了一系列卓有成效的研究工作