2.3 数据分类决定应用方案
将不同的数据类型集成后,统一按照大数据进行处理,如下图: 2.4 大数据平台的逻辑层次
逻辑构成从框架上展示了各个组件的组织方式。这些层提供了一种方法来组织执行特定功能的组件。这些层只是逻辑结构;这并不意味着支持每层的功能在独立的机器或独立的进程上运行。
大数据平台通常由以下逻辑层组成: 1. 数据集成层 2. 数据存储层 3. 数据分析层 4. 数据使用层 2.4.1 大数据集成层
要全面考虑来自所有渠道的,所有可用于分析的数据。要求团队中的数据专家阐明执行需求所需的数据。这些信息包括:
? 格式— 结构化、半结构化或非结构化。
? 速度和数据量— 数据到达的速度和传送它的速率因数据源不同而不同。 ? 收集点— 收集数据的位置,直接或通过数据提供程序,实时或以批量
模式收集数据。数据可能来自某个主要来源,比如天气条件,也有可能来自一个辅助来源,比如媒体赞助的天气频道。
? 数据源的位置— 数据源可能位于企业内或外部。识别您具有有限访问 权的数据,因为对数据的访问会影响可用于分析的数据范围。 2.4.2 大数据存储层
此层负责从数据源获取数据,并在必要时,将它转换为适合符合分析方式的格式。例如,可能需要转换一幅图,才能将它存储在 Hadoop Distributed File System (HDFS) 存储或关系数据库管理系统 (RDBMS) 仓库中,以供进一步处理。规范 1和治理策略要求为不同的数据类型提供合适的存储。
2.4.3 大数据分析层
分析层读取数据改动和存储层整理 (digest) 的数据。在某些情况下,分析层直接从数据源访问数据。设计分析层需要认真地进行事先筹划和规划。必须制定如何管理以下任务的决策:
? 生成想要的分析 ? 从数据中获取洞察 ? 找到所需的实体
? 定位可提供这些实体的数据的数据源 ? 理解执行分析需要哪些算法和工具。 2.4.4 大数据应用层
此层使用了分析层所提供的输出。使用者可以是可视化应用程序、人类、业务流程或服务。可视化分析层的结果可能具有挑战。
3 大数据平台的功能架构 3.1 组件构成 3.1.1 横向层
3.1.1.1 大数据集成层 大数据来源:
? 企业遗留系统— 这些系统是企业应用程序,执行业务需要的分析并获 取需要的洞察: ? 气象网络设备监测系统 ? 气象信息共享系统 ? MICAPS
? 网络通信系统CMA-Cast ? 突发应急系统 ? 气象预报系统 ? 气象服务系统 ? 办公自动化
? ?? ? Web 应用程序开发--Web 应用程序和其他数据来源扩充了企业 拥有的数据。这些应用程序可使用自定义的协议和机制来公开数据。 ? 数据管理系统 (DMS)— 数据管理系统存储逻辑数据、流程、策略和各 种其他类型的文档:
? Microsoft? Excel? 电子表格 ? Microsoft Word 文档
? 这些文档可以转换为可用于分析的结构化数据。文档数据 可公开为领域实体,或者数据改动和存储层可将它转换为
领域实体。 ? 数据存储— 数据存储包含企业数据仓库、操作数据库和事务数据库。
此数据通常是结构化数据,可直接使用或轻松地转换来满足需求。这些数据不一定存储在分布式文件系统中,具体依赖于所处的上下文。
? 智慧设备— 智慧设备能够捕获、处理和传输使用最广泛的协议和格式 的信息。这方面的示例包括智能电话、仪表和医疗设备。这些设备可用于执行各种类型的分析。绝大多数智慧设备都会执行实时分析,但从智慧设备传来的信息也可批量分析。
? 聚合的数据提供程序— 这些提供程序拥有或获取数据,并以复杂的格
式和所需的频率通过特定的过滤器公开它。每天都会产生海量的数据,它们具有不同的格式,以不同的速度生成,而且通过各种数据提供程序、传感器和现有企业提供。
? 其他数据源— 有许多数据来自自动化的来源: ? 地理信息: ? 地图
? 地区详细信息 ? 位置详细信息
? 经济热点详细信息(工农业旅游交通教育医疗金融等等) ? 人类生成的内容: ? 社交媒体 ? 电子邮件 ? 博客 ? 在线信息 ? 传感器数据:
? 环境:天气、降雨量、湿度、光线 ? 电气:电流、能源潜力等