地税局大数据云平台整体解决方案
1.2 业务需求理解
随着智能分析和互联网数据挖掘技术的日益成熟,从海量数据中挖掘出更多有价值的信息资源成为可能,这对保证地税局工作的顺利开展、提升数据信息处理质量和效率,都将起到至关重要的作用。
作为国家数据信息的官方生产和管理部门,地税局局对于加强系统内部的地税局信息化建设、建立大数据平台服务的需求较为迫切,主要集中在地税局云平台建设、数据采集与拓展、创新应用等方面。
1.2.1 开放的地税局云数据平台
目前,地税局地税局部门对企业、家庭、个人的调查都是通过预先设定好的地税局标准报表,要求调查对象按照表中的地税局指标填报数据,然后整理汇总成最终的地税局数据并对外公布。地税局部门希望通过应用大数据,实现地税局地税局部工作从“先有指标再有数据”到“先有数据再有指标”的质变。
26
地税局大数据云平台整体解决方案
1.建立标准的指标平台:针对地税局数据标准各异的特点,地税局局希望能够搭建一个标准的指标平台,实现对元数据、指标的统一报表管理以及数字化管理,从而解决数据不统一的问题。规范地税局地税局部门应用大数据的地税局标准,也是为数据资源的利用与共享提供可靠的平台支持。
2.大数据计算和存储:通过建设稳定的大数据资源平台来支持数据库技术和云存储技术,解决对基础设施的管控和数据计算和存储问题,形成整个系统的平台处理基础。
3.资源协同共享:打破原有的闭源数据分析处理思路和模式,各司局之间的业务数据可以用过开源的数据平台进行沟通和查询,建立信息互通机制,一方面可以根据不同的业务模型和角度来分析平台上的共有数据;另一方面也为数据的有效性提供更多维度的评估参考。
1.2.2 数据采集与拓展
如何通过大数据采集技术来实现地税局局现有数据的成功拓展,成为地税局系统内部业务提升的核心需求。地税局局关于互联网数据的采集与拓展需求,主要是实现从互联网海量数据资源中挖掘出更多数据资源的问题。
数据采集与拓展方面的主要需求有:
1.非结构化数据激活:目前的地税局地税局是在统一标准下处理结构化数据,然而地税局局现存的历史数据多以文本、音频、视频、照片等非结构化形式存在,处理大量缺乏统一标准的非结构化数据是现阶段地税局分析业务应首要解决的问题。通过技术手段来激活历史
27
地税局大数据云平台整体解决方案
数据、扩充有效数据来源,可以拓宽地税局分析的时间维度和信息视角,为地税局工作后期的分析汇总工作增加评判依据。
2.互联网信息精准采集:现有地税局地税局的工作中,地税局标准的应用范围大多局限在地税局系统内部。利用互联网信息发布速度快、分布广等特性,地税局局希望可以通过大数据技术对互联网信息进行精准采集,用以增加数据采集来源、拓展地税局标准的应用范围,从而提升地税局数据分析的应用水平。
3.按需分类:从非标准化、信息量繁杂的网络信息中抓取核心的关键数据,对这些信息进行标准分类转换,按照地税局局的统一业务标准进行有效分类。
4.数据校验:地税局局希望可以通过多渠道采集到的数据信息来验证和评估现有数据的准确性。
互联网信息数据具有数据量大、类型丰富、信息价值高的特点,可以利用大数据技术有效补充现有地税局数据的不足,从多个维度全面解释社会经济现象,从而更好的提高地税局数据的适用性。
1.2.3 创新应用开发
基于平台建设与数据采集拓展的基础上,地税局局各业务部门希望可以在可视化、自动化、评估预测等方面实现技术突破。
1.可视化:摒弃传统的表格、饼柱图等分析方式,借助图形化手段,清晰有效地传达与沟通信息。例如,可以将地税局局收集到的二手房交易价格信息、农作物种植及病虫害信息等分别用地图GIS的形式集中展示,从而更清晰的表达数据与数据之间的逻辑关系,赋予数
28
地税局大数据云平台整体解决方案
据内在价值和活力。
2.自动化:希望数据处理平台可以提供自动生成分析报表的创新功能,可根据系统导入的数据文件,批量生成地税局分析表格,从而替代现有的重复手工劳动,实现报表的一键分析处理和发布。
3.评估预测:现有的数据来源广泛,数据质量校验的形式大多依靠人工经验分析,且数据验证的标准较为单一。地税局局各业务司希望可以利用大数据的分析处理技术,挖掘更多数据资源来作为现有数据基础的验证和参考。同时希望可以在数据资源丰富的基础上,依靠专业的建模分析工具来发现数据背后所表达的客观规律,从而准确描述和预测未来的发展趋势,为国家宏观决策提供可参考的数据依据。
1.3 基础平台建设需求
主干系统采用应用和数据大集中模式,为了满足业务系统对可用性、可靠性和安全性的要求,保障数据中心业务数据的安全、可靠,提高业务系统稳定性和业务连续性,须建立多个数据中心来承载业务系统实现应用的高可用性,主干系统大集中的数据中心整体部署采用“两地三中心”(同城双活、异地灾备)架构(即上节第四种架构): ? 在北京同城部署两个生产数据中心,生产数据中心以双活模式工作,在这种工作模式下,所有的业务系统同时在两个生产数据中心运行,同时为用户提供服务,当某个数据中心的应用系统出现问题时,由另一个数据中心的应用来持续的提供服务;双活数据中心最大的特点是:一、充分利用资源,避免了一个数据中心常年处于闲置状态而造成浪费。通过资源整合,双活数据中心的服
29
地税局大数据云平台整体解决方案
务能力是双倍的。二、双活数据中心如果中断了一个数据中心,另外一个数据中心还在运行,对用户来说是不可感知的。 ? 在南宁部署容灾数据中心,为北京生产双中心业务系统提供灾备机制,当北京生产中心的出现故障时,可以将单个应用或者数据中心整体切换到容灾数据中心。
三中心完全按照应用级灾备目标建设,每个中心均具有独自承担业务运行和数据管理的相关能力,三中心的设置既可以在同城范围有效保证数据的同步性、安全性、负载均衡性和业务连续性,又可以在远距离进行异地数据保护和灾难业务接管,在提高业务处理性能的同时防范同城与异地范围内的灾难。
30