网络舆情监测分析系统建议方案
4.3.2.1自动关键词提取
自动关键词提取是通过智能的手段为文档自动提取关键词的技术。 方正智思的自动关键词提取引擎采用了我们的文档分析与指代消解方面的最新研究成果,大大提高摘要与关键词的准确性与可读性。同时,该引擎提供静态摘要与动态摘要的功能。
实际应用系统中,在该引擎核心上可实现对文本网页等的自动提取摘要(静态摘要)与关键词,对检索结果集提供与检索条件相关的动态自动摘要,从而检索者只需要阅读的少量内容就可判断是否是所需要的文档。
4.3.2.2自动摘要
自动摘要是进行信息抽取的重要形式,其主要包括基于统计与基于理解的两种方式,基于统计的文摘是根据线索词词典、词频、词和句子的统计规律进行模式匹配汲取文摘;而基于理解的方式则是利用句法、语义知识等知识,在对文章的内容进行理解的基础上提取文摘。
? 处理范围
可处理任意文本,不受领域、题材的限制; ? 处理效率
要求建立在统计文摘的基础上,因此,具有很高的处理效率; ? 处理质量
要融合理解文摘的优点,使得文摘的质量更高、效果更好。
4.3.2.3多文档摘要
多文档摘要是可以对多个稳定进行信息抽取的形式,又融合了中文自然语言理解技术和数据挖掘技术得应用。其主要包括基于统计与基于理解的两种方式,基于统计的文摘是根据线索词词典、词频、词和句子的统计规律进行模式匹配汲取文摘;而基于理解的方式则是利用句法、语义知识等知识,在对文章的内容进行理解的基础上提取文摘。
16 北京方正电子政务技术有限公司
地址:北京市海淀区成府路298号中关村方正大厦0428室
TEL:(010)82529034 FAX:(010)82529440
网络舆情监测分析系统建议方案
4.3.2.4相关推荐
相关推荐是综合利用文档的内在特征信息进行智能分析,判断文档的相似性与重复性。
方正智思的相关推荐引擎中又融合了自动消重引擎,采用了我们最新的文章相似度量技术与相似索引技术的研究成果,适合于对海量文档的快速相似判断。
实际应用系统中,在该引擎核心上一方面可实现自动查找相似文本并向检索者推荐的功能,另一方面又可实现对文本的自动消重,降低文章冗余度,避免文章重复发布等。
4.3.2.5自动聚类
本系统支持基于统计的文本信息处理方法来实现信息的自动聚类,具备对信息的概念分析、概念模式识别、相关度计算等能力,从而可以充分挖掘隐含的、内在的信息,起到预警的作用。
自动聚类是将数据集合中的数据划分为具有一定意义的子集,使得不同子集中的数据差别尽可能大,而同一子集中的数据差别尽可能小。信息自动聚类是在对信息进行概念分析、概念模式识别、相关度计算的基础上,根据其内容主题进行自动分组。其区别于自动分类的关键是它没有学习的过程,而是根据数据对象的内在特征实现对对象集的分组。
4.3.2.6自动分类及分类训练
该功能是实现对信息数据的自动标引,分类、发送和存放。为用户提供按需定制的个性化服务,实现同级跨口径的分类,满足用户兴趣偏好。通过自动分类避免用户在浩如烟海的信息资源中,逐条搜索浏览,保证用户手上随时有最准确最相关信息来帮助他们有效地完成工作。
? 先进的分类策略
内置SVM、VSM、kNN等多种先进的分类方法,从而使分类效果从技术上达 到最优化。
17 北京方正电子政务技术有限公司
地址:北京市海淀区成府路298号中关村方正大厦0428室
TEL:(010)82529034 FAX:(010)82529440
网络舆情监测分析系统建议方案
? 分层分类
可实现分类处理上的逐层分类,使分类类别逐级细化 ? 分类类别定制
分类类别可由用户自行定制,以满足自己的不同需要 ? 完善的训练处理机制
在分类处理上,提供优化的训练处理方法,可自动优化训练集合,排除噪 声点、干扰点,从而提高训练样本集的质量,使分类器的分类质量得到改 善。 ? 自我学习能力
提供优异的分类系统自我学习机制,使分类系统在使用中可以进行自我学 习,从而实现分类器的自我优化、自我调整,从而避免分类系统因使用时 间而逐渐退化的现象 ? 高效的分类效率 分类效率达到毫秒级 ? 优良的分类效果
可获得90%左右的分类准确率
4.3.2.7主题检测与追踪
主题检测与追踪是指在各种信息来源中追踪那些与讨论目标主题相关的信息片段(如单个文档,新闻报道等等)。主题检测任务是自动检测信息片断集合中的各个未知主题,并能在线检测出新主题。这一技术是国际学术领域正在研究的最新课题之一。
方正的主题检测/追踪引擎采用了最新的国际研究成果,引入新的时间窗算法,结合我们在中文信息处理方面的优势而实现的引擎核心,它对中英文文章均具有很好实用性能。
实际应用系统中,在该引擎核心上可实现对新闻事件的分析,辅助进行专题报道,快速识别新事件、追踪热点事件。
18 北京方正电子政务技术有限公司
地址:北京市海淀区成府路298号中关村方正大厦0428室
TEL:(010)82529034 FAX:(010)82529440
网络舆情监测分析系统建议方案
4.3.2 信息智能处理
信息资讯的加工工作分为对单一情报信息文档的加工和对情报文档集合的分析处理。对于单文档的加工,本系统中应用知识管理技术,实现信息的自动消重过滤、自动分类、自动摘要提取与自动关键词提取。对于文档集合的智能分析处理,可以实现基于行业分类体系的自动分类、基于语意的自动消重和过滤。 4.3.2.1中文分词
以基于中文分词的混合字词为索引单位,内嵌的分词系统采用以词典为基础的分词算法。系统自带一部通用的系统词典,用户可以通过建立用户词典来定义新的词汇,用户词典一般包含了某个领域的专业词汇。系统在自动分词时将同时参考缺省分词词典和用户词典中的词汇。
为了最大限度地减少索引库的空间膨胀率、加快查询速度,系统中还引入了停用词典的概念。停用词典是按词建索引时不需要建立索引的词的集合,它是由一系列没有检索意义的高频词组成的,如英文文献中的“the”、“of”、“and”、“to”等,中文文献中的“的”、“关于”、“但是”、“而且”等。从相关性方面讲,文献中的这些词没有检索意义,因为这些词出现在多数文献中。在检索系统中,使用停用词典来过滤掉文献中没有检索意义的词。
基于词典的中文自动分词系统,词典采用快速的索引方式进行组织,利用词频、词性信息提高了分词的准确度,通过用户词典、停用词典提高了分词的灵活度。
4.3.2.2智能检索
智能检索是对海量文本数据进行检索的重要而基础的技术手段。一方面随着互联网的发展,WEB搜索技术迅速发展,检索引擎的数据处理能力迅速上升到TB级。另一方面,随着自然语言理解技术与人工智能技术的发展,在传统的检索技术的基础上逐渐发展起智能检索技术。这些技术逐渐在企业全文检索中得以应用。
方正智思全文检索面向企业应用,将WEB搜索技术与企业的全文检索技术相
19 北京方正电子政务技术有限公司
地址:北京市海淀区成府路298号中关村方正大厦0428室
TEL:(010)82529034 FAX:(010)82529440
网络舆情监测分析系统建议方案
结合,提供具有丰富检索手段的高性能全文检索系统。
方正智思全文检索的主要技术手段包括:
? 利用自然语言理解技术对文档数据进行分析并实现以中文分词为基础
的文档信息单元的切分;
? 采用改进的倒排索引技术实现海量信息的存储与索引; ? 利用自然语言理解技术扩展布尔模型以便提供灵活的检索手段; ? 利用文本挖掘技术实现对检索结果的排序过滤与聚类。 方正智思全文检索的主要功能包括: ? 支持多语言; ? 支持多种建索引方式; ? 支持多信息域; ? 支持多种存储索引方式; ? 支持多种数据类型; ? 支持多种数据源; ? 支持自动增量式索引; ? 支持多种智能检索模式;
? 支持多种结果集返回手段;
4.3.2.3自动排重与自动过滤
在互联网中,网页内容的互相转载引用大量存在。在互联网信息采集中,自动排重具有非常重要的作用。
自动排重特色: ? 多特征文档标识策略
从文档中提取多个特征项来标识一篇文档,消除了采用单一特征标识文档的不足,有效地提高了排重的准确性
? 智能的过滤处理
可根据需要对文档前后一些与内容无关的文字信息进行过滤处理,提高特征提取的准确性。
20 北京方正电子政务技术有限公司
地址:北京市海淀区成府路298号中关村方正大厦0428室
TEL:(010)82529034 FAX:(010)82529440