智慧财政大数据云平台建设方案
度。数据源在许多方面可以不同。它们可以运行在不同的硬件上,可以使用不同的网络协议,以及使用不同的软件来管理它们的数据存储。它们可能具有不同的查询语言、不同的查询能力甚至不同的数据模型。它们可能非常类似于这样两个 Oracle 实例:一个运行 Oracle 8i,另一个运行 Oracle 9i,并且模式可能相同或者不同。SQL联邦查询可以容纳所有这些差异,将上述这些系统封装在一个无缝的透明联邦体中。
3.优化的性能。 SQL联邦查询优化器是关系数据库管理系统
的组件,它决定执行每条查询的最佳方式。关系查询是非过程化的,每个关系运算符通常有几种不同的实现,而且在执行一条查询时,可供选择的运算符的可行顺序有许多种。虽然一些优化器使用启发式规则来选出一种执行策略,但联邦数据库考虑各种可能的策略,对每种策略可能的成本建模,然后选出一种成本最低的策略。
(4)标签搜索引擎
标签搜索引擎可以周期性地监控信息变化情况,对发生变化的信息自动建立索引,能够实现针对内容的全文检索以及针对各类属性的特征检索。主要通过Solr、Elasticsearch和分布式内存数据库紧密结合实现信息检索。
标签搜索引擎提供如下检索能力:
1.智能检索。智能检索包括智能中文分词(采用了上万条歧义
排除规则)、广义同义词检索、主题词典控制检索以及相似性检
45
智慧财政大数据云平台建设方案
索。
2.相关度排序和时间排序。检索系统提供相关度排序和时间排
序两种有效的排序输出方式,相关度排序以检索词与内容的相关性为依据对检索结果排序;时间排序则保证把最新的内容优先输出。
3.增量更新。检索系统采用增量更新方式对内容进行更新,即
每次检查内容的变化时,只对新添加或发生变化的内容进行更新,索引性能明显优于只能进行完全更新的系统,并且把对系统本身的访问压力降至最小。
4.开放性。检索系统把内容进行各种自动标引后,统一存储在
数据库中(内容检索服务器或数据库),使这些信息成为可以再开发利用的资源。
随着财政业务信息资源的激增,传统基于关键字的信息检索方法因返回的结果集不够精炼,与用户需求偏差大使得信息检索查准率降低。利用集体智慧,以自由化的、合作共享的组织形态,允许用户自由地描述资源,增强了标签资源间的相关性和用户间的交互性,提高个性化信息检索服务的准确性和专业性提供一条可行途径。
46
智慧财政大数据云平台建设方案
图3-12标签搜索流程图
3.6.2数据算法提速
大数据财政平台操作的是财政业务的数据,对于部分实体数据为了保护自身的利益将数据进行处理上报。因此通过有效的数据挖掘技术手段来甄别数据的真实性显得尤为重要。
图3-13数据挖掘方法
(1)分布式聚类算法
47
智慧财政大数据云平台建设方案
利用工商信息、企业基本信息、税务信息等记录,我们可以构建出一个网络拓扑结构,以构建企业的相应属性标签,属性标签可以反向标记回企业,从而企业具有群体属性。
图3-14企业聚类图
聚类分析时数据挖掘的一个重要分支,目标是将数据对象分组成为多个类或簇,在同一个类中的对象之间有较高的相似度,而不同类中的对象差别较大。早期的聚类多采用无监督方式,但随着数据挖掘领域的扩展,很多的行业问题,需要有监督的数据挖掘技术。
图3-15基于内存计算的分布式聚类算法
48
智慧财政大数据云平台建设方案
算法目标是模块度函数,该函数定义为簇内实际连接数目与随机连接情况下蔟内期望连接数目之差,用来衡量企业项目的划分质量,整个过程自底向上进行。
图3-16 聚类算法模块图
图3-17 聚类算法模块图
内存计算(In-Memory Processing),实质上就是CPU直接
49