勤智 创新创业大数据平台解决方案(2)

2019-01-19 17:43

勤智 创新创业大数据平台_解决方案

1)大数据支撑体系的建设 2)大数据平台运营维护服务 3)科研专家和数据资源服务投入 具体投资建设内容如下:

3.1 大数据支撑体系建设

为了实现政务数据的共享创新体系的建立,对政务数据需要有完备的分析处理体系,以支撑整个创新创业生态、大数据产业链的健康发展,而且国信优易拥有高质量的国家部委的各类数据,为了能有效的访问到经过国信优易授权的各类数据,建设内容已经充分考虑应用国内目前成熟和先进的技术,最大限度复用国信优易大数据平台的成熟稳定的技术架构和实现,结合特定需求的元数据管理、数据分类、数据审计、数据审核、数据评估、数据定级、数据发布、数据水印管理、数据开放接口管理、数据展示统一门户系统、身份权限管理、用户管理、平台门户系统、其他接口和应用平台等符合本地实际情况的定制开发等建设内容。

大数据支撑体系是整个创新创业大数据平台项目的核心支撑,也是投资建设难度最大的一个投资建设任务之一。包括:

3.1.1 大数据支撑平台

创新创业大数据平台承担了智慧城市底层支撑、政务数据共享交换、互联网数据存储、国信优易数据访问接口等多个核心业务需求,平台自身需要具备和采用先进的经过深度优化大数据技术、分布式存储计算和算法模型、高并发和快速响应的高速缓存架构等,建设一个基于SOA框架的大数据能力核心平台,作为整个项目的数据智慧处理中心,需要支持多种数据源的汇集 (政务数据、互联网数据、行业数据等),支持不同的数据格式(结构化数据、非结构化数据以及流数据等)。在繁杂的数据接入要求的情况下,采用基于总线机制的数据接入系统,可以快速有效的完成数据接入的要求以及提供丰富和灵活的扩展性。

大数据支撑平台的建设计划采取复用国信优易成熟的大数据平台产品的思路,一是确保了与国信优易的数据接口访问互通的一致性、二是成熟的产品架构确保了运行的稳定性、技术的先进性。

6 / 25

勤智 创新创业大数据平台_解决方案

平台的总体逻辑架构分为三层:基础设施层(IaaS层)、大数据平台层(PaaS层),以及大数据应用层(SaaS层)。基础设施层依托于分布式存储架构,大数据平台层则提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能,最后由大数据应用层提供的各种大数据应用来充分展示大数据平台的数据处理能力和共享能力。

图:创新创业大数据平台逻辑架构设计

3.1.1.1 基础设施支撑平台IaaS

政务大数据平台将充分利用区域政务中心(或信息中心)提供的基础设施资源,如:计算、存储、备份、网络和安全防护等,从而为政务大数据平台提供一个稳定可靠、高性能、扩展性强、易于管理的基础设施平台,IaaS层中基础的服务器和网络等资源计划尽量复用现有的硬件资源。

3.1.1.2 大数据分析处理平台PaaS

政务大数据平台利用数据接入服务,将在云计算中心部署的政务应用中存在的政务信息资源以及互联网数据进行统一的接入,经过对结构化和非结构化数据进行处理后,汇总形成总计21个一级类,133个二级类的政务大数据目录库,实

7 / 25

勤智 创新创业大数据平台_解决方案

现资源的查询、检索以及共享利用。同时,构建高效的大数据分析系统,利用分布式数据处理、分析工具和展示工具,为上层应用服务提供大数据处理和分析能力。此外,利用大数据门户,为政府各委办局、社会公众、社会应用开发商提供资源查询、信息公开和数据服务。

3.1.1.3 大数据典型示范应用层SaaS

利用基础设施支撑平台和分析处理平台构建基础云端应用服务能力,建设数据创新创业促进系统、数据创新竞赛等提云端应用服务,在平台落地建设完毕时,即可提供具体应用提升人气,产生数据价值。

3.1.1.4 标准和先进的平台

大数据平台规划设计完全符合国家的宏观政策和各类标准,在标准规范层面,通过建立政务大数据平台的数据目录编制规范、数据权限管理规范、运行标准规范、平台安全与运维标准规范、数据交换接口规范,为平台的运行、维护与安全级权限控制管理等方面提供标准规范依据。

大数据平台的核心技术优势明显,以整体高可用性、灵活的可扩展性、技术先进性为原则,打造适合于政府的大数据产业发展的支撑平台:

? 双总线技术的SOA框架: 平台层采用基于政务服务总线(GSB)及政务数

据总线(GDB)双总线架构的SOA框架。GDB主要负责数据的接入和交换,GSB主要负责对内对外的提供统一的服务接口。

? 深度优化的分布式异构存储技术: 平台使用了经过深度优化的HDFS、

HBase与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存储体系。 ? 自主知识产权的高效算法和分布式计算框架:平台内部集成了几十种自

主知识产权的经过十多年技术沉淀的算法集合,利用MapReduce和Spark的高效分布式计算框架,实现各类复杂数据挖掘和分析需求。

8 / 25

勤智 创新创业大数据平台_解决方案

图:创新创业大数据平台功能层次架构设计

3.1.1.5 互联网舆情信息模块

据不完全统计,中国网民规模达6.32亿,互联网普及率为46.9%,网络已经成为超越广播、报纸、电视的第一大信息传播媒介。42%的消费者拥有博客或个人空间。61.7%的网民在购买之前到网络社区(如垂直网站、论坛、博客或问答)寻求推荐和建议。34%的博主发表关于产品和品牌的意见。73%的消费者在网上交流观点。76%的网民将网络口碑作为了解产品和服务最可靠的信息源。78%的消费者相信朋友的推荐。在选择商品和服务时,人们更加关注他们在网络上的排行。不到10%的网民发表着超过80%的原创言论,并吸引着超过90%的点击率。根据权威媒体统计,69%的政府和企业危机来自于互联网。

对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本项目将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。

9 / 25

勤智 创新创业大数据平台_解决方案

? 互联网分布式爬虫

对互联网数据的获取主要依赖于网络爬虫技术实现。创新创业大数据平台采用先进的分布式网络爬虫框架,由框架完成爬虫的统一调度、管理和维护工作,以及被采集数据的统一存储工作。爬虫使用者只需要进行简单的配置或开发极少量脚本代码即可完成一个复杂页面甚至网站的爬取工作。

另外,平台在合法范围内适当利用反防爬虫技术,如验证码识别、动态IP、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。

平台提供部分互联网门户网站、网络社交论坛、微博等系统的爬虫,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于爬虫框架,使用平台提供的SDK套件开发相应的爬虫。

? 互联网门户网站信息获取接入

互联网门户网站信息获取接入是利用分布式网页爬取技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据。

互联网门户网站信息爬取的对象如下:

? 对新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤

凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。

? 对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实

时监控,获取气象、地震、交通、自然灾害信息。 ? 其他政府期望及时获取的有价值互联网信息等。 ? 网络社交论坛信息获取

与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的爬取技术获取互联网中的社交论坛信息。主要提供以下相关内容的获取:

? 对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、凯

10 / 25


勤智 创新创业大数据平台解决方案(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:第16课 苏教版五年级语文上册 黄山奇松 课时练习

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: