勤智 创新创业大数据平台_解决方案
迪社区、强国论坛、中华网论坛、新华网论坛、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。 ? 对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映
电子政务相关的信息内容。 ? 微博信息获取
微博信息获取主要通过调用爬虫对新浪微博的网页爬取方式,对微博用户发布的信息进行实时的爬取,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。
3.1.2 数据管理子系统
3.1.2.1 元数据服务系统
? 元数据库管理
基于Web浏览器端,向后台系统管理员提供根据数据平台内部的元数据标准(数据描述元数据、服务信息元数据),分别进行对应元数据库的创建与管理的功能。
? 元数据管理
? 基于Web浏览器端,向后台系统管理员提供对元数据文件导入的功能。 ? 基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创
建编辑保存功能。
? 提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管
理WebService服务。 ? 元数据服务管理
基于Web浏览器端,向后台系统管理员提供启停元数据服务的功能。
3.1.2.2 数据目录和接口标准管理系统
大数据资源目录体系梳理包括对政务信息资源核心元数据标准、分类标准、标识编码标准等方面进行梳理。参考国家对政务信息资源分类体系的制定标准,经过先期梳理,可将政务大数据资源目录梳理为 21个一级类,133个二级类。
11 / 25
勤智 创新创业大数据平台_解决方案
代码 ZA ZAA ZAB ZAD ZAE ZAF ZAG ZAH ZB ZBA ZBB ZBC ZBD ZBE ZBF ?? 目录名称 综合政务 政务综合类 方针政策 政府工作 机构编制 政府领导 会议、会务 重大事件 经济管理 经济管理综合类 经济发展计划 经济管理 经济体制改革 经贸管理 统计 ?? 描述和说明 关于政治方面的事物和和国家的管理工作 与政务管理相关的综合性事务,包括政务督查、电子政务、信息公开 政府制订的、宏观的、指导各个领域发展的方针政策 关于政府的规章制度、组织机构建设和发展,以及工作职责等相关信息 关于机构编制的管理、机构体系的当前概况和远景规划 关于政府各级领导的简历、工作岗位、工作活动、讲话等相关信息 会议产生的文件等相关信息,以及会议组织、管理的相关信息 有深远影响的事件的相关信息 关于经济的管理、规划、发展概况 关于经济的宏观的发展规划 关于经济的宏观管理现状 关于经济体制改革的管理和规划、发展情况。 关于经济贸易的宏观管理和发展调查报告、统计资料 关于统计工作的管理和发展情况 ?? (此处只列出部分分类, 整体依据国家标准进行同一分类) 在平台建设的同时结合符合国家标准的平台段数据目录的定义,结合各个委办局的实际接口情况,明确各个委办局数据接口的接入标准,明确可汇聚共享交换的数据分类、数据格式、数据类型、数据接入方式等内容。通过明确的接口标准定义,指导各个委办局的数据接入,并提供必要的技术支持和指导。
数据目录的定义和管理要遵循国家现有政务电子信息化建设的相关标准,同时结合各个委办局数据的地域特殊性进行更细致的完善,确保数据目录在遵循国家标准的前提下,兼容支持本地政府的各类数据。
3.1.2.3 数据挖掘和分析系统
数据分析模块子系统作为创新创业大数据平台对外提供数据的深度挖掘和分析服务的核心系统,分布式数据处理子系统提供了对分布式存储数据进行处理的能力。数据分析系统利用多种分布式计算引擎,结合分布式数据存储模型对各类结构化及非结构化的信息资源进行快速的分布式分析处理,并将分析处理后的中间结果数据提供给上层示范性应用以及其他部门业务系统中进行二次利用;此外,模型管理子系统提供各类业务分析模型的新建、修改等管理功能。
创新创业大数据平台的数据分析系统可分为如下几个主要部分: ? 分布式计算引擎支撑系统
在分布式处理领域中,分布式并行技术是最为核心的领域之一。没有好的分布式处理程序的支持,分布式处理就不可能很好的工作,所谓超级计算、大数据分析也就更加无从谈起了。创新创业大数据平台通过提供MapReduce、Spark和Storm三种分布式计算框架,为上层应用提供大数据分布式计算的支撑。这种架构既能够最大限度的满足各种业务模型的需求,同时也能够充分利用政务大数据
12 / 25
勤智 创新创业大数据平台_解决方案
平台的软硬件资源,提供数据存储访问及分布式计算任务的调度、运行及结果通知等功能。
? 算法及模型支撑系统
数据分析不能一概而论,数据分析需要有基础算法的支撑。随着数据集规模和复杂度的持续上升,对算法要求也越来越高。创新创业大数据平台采用基于Hadoop技术架构的处理技术,为数据分析师及开发者提供几十种具备自主知识产权的分布式算法。平台提供相应的SDK开发工具套件及算法调用API,从而让各种应用能够方便的使用平台数据及其算法。拥有基础算法的支持仅仅完成了数据分析和挖掘的第一步,对于每一个具体的基于数据的应用系统,都需要根据其自身特点建立相应的分析模型,才能够有效的支撑应用系统。简单的说,分析模型可以看作是由一个或多个基础算法组合而成,基础算法提供了大量的中间结果,而模型则将大量的中间结果处理为最终结果。
? 数据分析开发套件SDK
大数据平台提供的三种分布式计算框架为平台提供了强大的分布式计算能力,从而为各种基于数据的应用提供了基本的运行环境;同时,基础算法库中大量的分布式算法实现则为数据分析模型的建立提供了底层的工具支撑。为了让平台的计算能力和算法分析能力应用到实际业务之中,还需要通过研发人员开发出使用这些计算能力和算法库的分析程序。分布式计算开发套件SDK则使平台具备了二次开发的能力,它可以让研发人员利用大数据平台中分布式并行计算的能力,通过基于数据分析的定制开发,实现对海量大数据进行分析处理,建立数据分析处理的结果性数据,为上层大数据业务应用提供数据支撑。
3.1.2.4 数据信息管理系统
? 数据审核
数据审核模块主要是接受供应商门户网站上传的流数据和块状数据,对这些数据进行审核,决定其是否能通过,并进入数据评估。
? 数据评估
数据评估模块主要是对已审核过的数据,针对各个指标项进行数值评估,最终保存其评估结果,供用户查询和数据定价时参考。
? 数据定价
数据定价模块主要是设置经过数据评估的数据,对应不同用户、不同使用环境进行数据定价。
? 数据发布管理
数据发布管理模块主要是发布经过定价或评估的数据,进行对外发布,设置
13 / 25
勤智 创新创业大数据平台_解决方案
其发布范围和发布状态。
3.1.2.5 数据日志系统
? 数据日志存储
对外提供数据日志存储服务接口,供其他系统进行数据日志信息的存储。 ? 数据日志查询
基于Web浏览器端,向后台系统管理员提供数据日志查询功能。
3.1.2.6 数据审计系统
? 数据服务使用情况审计
基于web浏览器端,向后台系统管理员提供对登陆和使用平台进行数据服务使用情况的用户行为进行跟踪记录和统计,并形成分析报告的功能。
? 服务状态监视
基于web端,向后台系统管理员提供对所有已注册并发布的开放数据API和数据下载服务的服务状态信息进行监视记录,并形成分析报告的功能。
3.1.2.7 数据使用权标记系统
? 块状数据水印服务
向数据平台提供webservice形式的块数据水印服务接口。 ? 流数据水印服务
向API管理系统和创新工场API系统提供webservice形式的流数据水印服务接口。
? 水印管理服务
基于web浏览器端,向后台系统管理员提供对水印的管理和验证功能。
3.1.3 创新创业管理子系统
3.1.3.1 创新创业应用管理系统
? 创新应用APP测试
14 / 25
勤智 创新创业大数据平台_解决方案
创新工场APP测试:当APP上架之前需要经过后台管理人员的测试,创新工场开发者用户应当提供给数据平台测试账号,布置测试环境,提供测试数据,以及对应APP的一些基本信息。后台管理员会根据提供的信息对该APP进行测试。 ? 创新应用APP发布
APP发布:对于测试通过的APP应用,后台管理员会进行发布,添加新的APP应用,输入APP有关的基本信息“名称、开发者、访问方式、说明描述、使用说明及演示地址等”。
3.1.3.2 开放数据API管理系统
? API发布
开放数据API发布:API数据系统主要提供给用户使用API的方式,进行数据下载。是通过接口形式,实时获取最新数据。后台管理员上架API,填写API的详细信息包括:API数据的描述(api的收费情况描述、接口作用信息、接口的参数对照信息、返回字典等信息),接口信息(调用地址、返回格式),API调用的文档,以及API调用的地址。之后会经过后台管理人员审核确认API通过审核,才会发布到数据平台。
? API测试
API发布之前必须经过测试,确保API的可用性、正确性、以及数据的完整性,对一些法律规定不允许公布的数据将不予以发布。
3.1.4 数据统一展示门户子系统
3.1.4.1 数据统一展示门户
数据统一展示门户主要为普通用户提供浏览、确定数据范围的功能,数据是由平台或者数据供应商提供的,用户可以通过分类、查找、过滤等方式找到自己关注的数据,然后查看数据的详细信息,数据自身都是经过脱敏和加密,符合对外展示的具体要求的,成为数据驱动的运营体系的统一对外展示接口。
数据统一展示门户系统功能包括,数据展示,数据的过滤功能,数据的查找功能,数据列表,数据的详细信息。
? 数据展示
15 / 25