基于Rocchio方法和k均值聚类的支持
向量机文本分类方法
曾砺锋
(电子科技大学计算机科学与工程学院,四川成都610054)
摘要:传统的基于支持向量机的文本分类器需要大量的人工标注的正类训练文档和负类训练文档。当前流行的文档标注库中,文档通常仅仅是划入不同的类别。为了解决在负类训练数据缺乏的情况下建立文本分类器的问题,提出了一种高效的方法,它结合了Rocchio方法和K均值聚类算法来获取充足的负类训练数据。关键词:文本;分类;支持向量机;聚类中图分类号:TP312
文献标识码:A
文章编号:1672-7800(2008)06-0037-03
ta)。而当前的人工标注文本通常只标注文本的所属类别,故而负训练数据缺乏是限制当前支持向量机算法发展的瓶颈之一。
快速、准确同时依赖于较少人工标注信息的大规模文本分类算法是当前信息检索和机器学习领域的研究重点,也是提升搜索引擎效率的关键方法之一。支持向量机算法应用灵活、分类精度高,但通过它生产某类文本的判别式时,需要大量的已经标注过的属于该类和不属于该类的文本,分别称为正训练数据(positivetrainingdata)和负训练数据(negativetrainingda-
1问题描述
当前的常见人工标注文本,只标注文本的所属类别,而并
不表示其非所属类别,不同的标注集采用的分类名称和分类标据实际情况封装异常对象的产生。基于框架的插件在开发时,应当根据需要处理不同的异常对象,从而使插件更为健壮。日志管理分为框架管理日志和插件日志服务。框架管理日志是记录框架在管理插件过程中的相关信息,这些信息可以被保存到由配置文件所指定的日志文件中;插件日志服务是框架提供给插件的、使插件具有日志记录功能的服务。这些日志管理功能通过框架服务模块和接口规范中的接口提供给插件使用。
务发布组件可以根据配置,采用WebService、Remoting或Hession等技术实现远程访问。
部署更新组件提供了与系统部署与更新的相关处理。由于采用插件式开发框架,软件的功能全部是以插件的形式提供,这就为软件的自动部署与更新提供了便利条件。当初次安装软件时,只需要将框架及其相关配置安装到目标机器,当框架启动时,部署更新模块可以根据配置,自动从联机服务器上下载所需插件进行安装。当框架重复启动时,部署更新模块可以自动比较本地插件与服务器插件的版本,如果服务器较新,则自动下载新的插件,完成系统的自动更新处理。
框架服务组件提供了框架对外的公共服务,这些服务通过接口规范中的服务接口提供给插件使用。框架服务分为两种类型:一类是框架管理类的服务接口,通过此接口,插件可以调用框架与插件管理相关的功能;另一类是工具类服务接口,比如网络访问、加密、压缩等,这类接口一般是框架通过封装第三方类库的方式提供,其目的是为框架提供方便统一的基础服务。框架服务整合了其它各模块的功能,并通过接口规范展现给外Fa-界,因此,可以将框架服务理解为整个框架的一个外观(cade)。
异常日志模块用以完成框架的异常处理以及日志记录。其中,异常处理既包括异常对象的定义,也包括当异常出现时,根
2结束语
插件式软件开发框架通过封装插件的控制逻辑,将不同的
插件组合在一起,能在受管理插件中建立起协作关系,进而通过插件实现软件功能。
参考文献:
[1]李俊娥,周洞汝.“平台/插件”软件体系结构风格[J].小型微型计
算机系统,2007(5).
[2]刘毅,陈慧蓉,荣钢.Plug-in结构应用程序设计[J].计算机应用,
2002(4).
[3]彭永康,章义来.插件及其接口的研究与应用[J].计算机应用,
2003(6).
(责任编辑:赵
峰)
作者简介:曾砺锋(1982 ̄),四川成都人,电子科技大学计算机科学与工程学院硕士研究生,研究方向为计算机系统结构。