修订版旅游大数据平台方案(2)

2019-02-14 22:41

三. 数据挖掘与大数据分析科研平台建设方案

3.1 大数据科研平台设备架构

高性能交换机高性能交换机高性能交换机主节点备份主节点管理节点接口节点计算节点计算节点接口节点计算节点计算节点计算节点计算节点计算节点计算节点机架1计算节点机架2计算节点机架3 图3.设备架构

3.1.1 主节点和备份主节点

主节点负责整个分布式大数据平台的运行。主节点始终在内存中保存整个文件系统的目录结构，每个目录有哪些文件，每个文件有哪些分块及每个分块保存在哪个计算上，用于处理读写请求。同时，主节点还负责将作业分解成子任务，并将这些子任务分配到各个计算节点上。备份主节点在主节点发生故障时承担主节点的各种任务，使得分布式大数据平台仍然能够正常运行。

3.1.2 管理节点

管理节点用于管理整个分布式大数据平台，可进行节点安装、配置、服务配置等，提供网页窗口界面提高了系统配置的可见度，而且降低了集群参数设置的复杂度。

3.1.3 接口节点

终端用户通过接口节点连接和使用分布式大数据平台，提交任务并获得结果，并可以用其他数据分析工具做进一步处理，与外界进行数据交互（如连接关系型数据库）。

3.1.4 计算节点

分布式大数据平台包含了多个计算节点。计算节点是系统中真正存储数据和做数据运算的节点。每个计算节点周期性地和主节点通信，还时不时和客户端代码以及其他计算节点通信。计算节点还维护一个开放的socket服务器，让客户端代码和其他计算节点通过它可以读写数据，这个服务器还会汇报给主节点。

3.2 大数据科研平台底层架构

大数据科研平台低层架构以我司自主研发的商业版Hadoop为基础架构，包含和大数据分析、数据挖掘、机器学习等功能模块，并以HDFS以及Hbase作为存储基础。

任务执行调度接口(Shell)批处理(MapReduce, Pig)数据交互接口(JDBC, ODBC)交互式SQL引擎(Hive)机器学习算法库(Mahout)统计建模(R)内存计算(Spark)管理监控(HonyaES-data)分布式资源调度管理(YARN)分布式存储 (Sentry)分布式持久化数据存储 (HDFS)分布式实时数据库(Hbase) 图2. 软件架构

3.2.1 分布式持久化数据存储——HDFS

Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

3.2.2 分布式实时数据库——HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于BigTable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

3.2.3 分布式资源调度管理——YARN

Yarn是Hadoop2.0的MapReduce 框架。YARN分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基础 NodeManager（YARN 的每节点代理）。ResourceManager 还与 ApplicationMaster 一起分配资源，与 NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。

3.2.4 交互式SQL引擎——Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

3.2.5 内存计算——Spark

Spark是UC Berkeley AMP实验室所开源的类Hadoop MapReduce的通用的并行计算框架。Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce算法。

3.3 科研平台的功能

3.3.1 科研项目管理

在科研平台中，科研计算是以计算项目来保存的，包括了计算项目建立、计算项目维护、计算项目设计、计算项目运行和结果可视化等几个环节。从技术角度来说，计算项目中也包括了算法组件、算法流程和数据集，一旦设计完后，就可用于计算，后期还可以调整算法和基于新的数据资源进行计算。

计算项目完成后，可以训练出算法模型，在新的计算项目中使用已经训练好的模型进行数据的预测，形成一次训练多次使用的算法实现。

3.3.2 平台内置数据集

在科研工作中，如何获取到海量高质量大数据资源是最大的难点。目前在互联网等渠道是很难找到科研工作所需的数据源，尤其是经过数据清洗和治理后的高质量数据。

数据超市平台利用以下模式，通过外部的资源，为高校的科研工作提供优质数据资源：

1）通过商务合作的模式，直接与数据所有权拥有者进行灵活的商务沟通，获得科研的数据使用授权；

2）邀请行业内优质的第三方数据服务提供商入驻数据超市平台；

3）通过数据采集的方式，经过数据寻源、采集、治理、清洗后，引入具有公开版权的数据资源；

所有引入数据都会经过数据工程师的严格审核，保证数据的清洁和质量，可以直接用于数据计算。

如平台内置的专利数据，包括了国内近2000万各类商业数据，并且不断更新，可以直接用于旅游各方面的科学研究。有别区目前行业提供的数据库，数据超市直接提供了原始的数据，可以打通其他的行业数据，用于深层次的数据分析和经济预测。

3.3.3 科研数据上传

科研老师已有的数据可以上传到平台参与数据计算，老师可以在平台上建立数据表，然后把本地数据文件上传到数据表中。也可以维护外部的JDBC数据源，平台会把外部数据自动抽取到平台中进行计算和预测。

3.3.4 集成算法组件

为了便于科研老师快速进行科研数据的加工、分析和计算，数据超市平台集成了50多种通用大数据算法组件，包括回归算法、分类算法、聚类算法、关联规划算法、推荐算法、预测评估、数据预处理算法、机器学习等。所有的算法无须重新编程，只需要拖拽绘图完成即可进行计算，如下图：

算法组件经过配置可以实现强大的自定义计算功能和效果，调整后的模型可以完成老师需要的数据分析和预测。

共4页:

修订版旅游大数据平台方案(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档