气象大数据资料(6)

2019-04-23 14:54

非结构化数据存储中的 Web 媒体访问步骤 A-1. 爬网程序读取原始数据。步骤 A-2. 数据被存储在非结构化存储中。 Web 媒体访问为结构化存储预处理数据步骤 B-1. 爬网程序读取原始数据。步骤 B-2. 对数据进行预处理。

步骤 B-3. 数据被存储在结构化存储中。 Web 媒体访问预处理非结构化数据

步骤 C-1. 在极少数情况下，来自供应商的数据可以是非结构化数据。步骤 C-2. 对数据进行预处理。

步骤 C-3. 数据被存储在结构化存储中。非结构化或结构化数据的 Web 媒体访问

步骤 D-1. 数据供应商提供结构化或非结构化数据。步骤 D-2. 数据被存储在结构化或非结构化存储中。 Web 媒体访问预处理非结构化数据

步骤 E-1. 不能使用在存储时未经过预处理的非结构化数据，除非它是结构化格式的数据。

步骤 E-2. 对数据进行预处理。

步骤 E-3. 经过预处理的结构化数据被存储在结构化存储中。

如图所示，数据可以直接存储在存储器中，或者可以对它们进行预处理，并将它们转换成一个中间格式或标准格式，然后再存储它们。

在可以分析数据之前，数据格式必须可用于实体解析或用于查询所需数据。这种经过预处理的数据可以存储在一个存储系统中。

虽然预处理通常被认为是微不足道的，但这项处理可能非常复杂和耗时。 3.3.3.2 物联网设备数据的访问组件

设备生成的内容包括来自传感器的数据数据是从天气信息、电气仪表和污染数据等数据来源检测到的，并且由传感器捕获。这些数据可以是照片、视频、文本和其他二进制格式。

下图说明了处理机器生成的数据的典型过程。图 5. 设备生成的数据访问

图 5 说明了访问来自传感器的数据的过程。由传感器捕获的数据可以发送到设备网关，设备网关会对数据执行一些初始预处理，并缓冲高速数据。机器生成的数据大多为二进制格式（音频、视频和传感器读数）或文本格式。这样的数据最初可以存储在存储系统中，也可以对它们进行预处理，然后再存储它们。对于分析来说，要求执行预处理。

3.3.3.3 基础数据(观测数据和生产数据)的访问模式

可以存储现有的事务、运营和仓库数据，避免清除或归档数据（因为存储和处理的限制），或减少在数据被其他使用者访问时对传统存储的负载。

对于大多数企业而言，事务、运营、主数据和仓库信息都是所有分析的核心。如果用在 Internet 上，或者通过传感器和智能设备提供的非结构化数据以及外部数据来增强此数据，那么可以帮助组织获得准确的洞察，并执行高级分析。

使用由多个数据库厂商提供的标准连接器，事务和仓库数据可以被推入存储。预处理事务性数据要容易得多，因为数据大多是结构化的。可以使用简单的提取、转换和加载流程将事务数据移动到存储中。事务数据可以很容易地转换成 JSON 和 CSV 等格式。使用 Sqoop 等工具可以更容易将事务数据推入存储系统，如 HBase 和 HDFS。

3.3.4 数据存储组件

存储模式有助于确定适当的存储各种数据的类型和格式。数据可以按原样存储，根据键值对存储，或者以预定义的格式存储。

分布式文件系统（如 GFS 和 HDFS）都能够存储任何类型的数据。但是，高效地检索或查询数据的能力会影响性能。技术的选择很重要。

3.3.4.1 分布式非结构化数据存储组件

大部分大数据是非结构化数据，而且可以通过不同的方式针对不同的上下文提取它所拥有的信息。大多数时候，非结构化数据必须按原样并以其原始格式进行存储。

这样的数据可以存储在分布式文件系统（如 HDFS）和 NoSQL 文档存储（如 MongoDB）中。这些系统提供了检索非结构化数据的有效方法。

3.3.4.2 分布式结构化数据存储组件

结构化数据包括从数据源到达的已经是结构化格式的数据，以及经过预处理，被转换为 JSON 数据等格式的非结构化数据。必须存储已经过转换的数据，避免从原始数据到结构化数据的频繁数据转换。

可以使用 Google 的 BigTable 等技术来存储结构化数据。BigTable 是一个大规模容错式自我管理系统，包括 TB 级的内存和 PB 级的存储。

Hadoop 中的 HBase 可媲美 BigTable。它使用了 HDFS 作为底层存储。 3.3.4.3 传统数据存储组件

对于存储大数据而言，传统的数据存储并不是最佳选择，但在企业执行初步数据探索的情况下，企业可能会选择使用现有的数据仓库、RDBMS 系统和其他内容存储。这些现有的存储系统可用来存储使用大数据平台消化和过滤的数据。不要认为传统的数据存储系统适用于大数据。

3.3.4.4 云存储组件

许多云计算基础架构供应商都有分布式结构化、非结构化的存储能力。从传统的配置、维护、系统管理、编程和建模角度讲，大数据技术有点不同。此外，实现大数据解决方案所需的技能既罕见又昂贵。探索大数据技术的企业可以使用云解决方案来提供大数据的存储、维护和系统管理。

要存储的数据往往是敏感数据，这些数据包括医疗记录和生物特征数据。您需要考虑数据安全性、数据共享、数据治理，以及有关数据的其他政策，在考虑将云作为大数据存储库的时候尤其如此。传输大量数据的能力也是云存储的另一个重要考虑因素。

3.4 复合模式

原子模式侧重于提供执行各项功能所需的能力。但是，复合模式是基于端到端的解决方案进行分类的。每个复合模式都要考虑一个或多个维度。在将复合模式应用到每个模式时，会有许多变化。可以将复合模式映射到一个或多个原子模式，以解决某个给定的业务问题。本文所述的复合模式列表是基于经常发生的典型业务问题，但这不是复合模式的完整列表。

3.4.1 存储和探索复合组件

如果业务问题需要存储大量新数据和现有数据，而且先前由于缺乏足够的存储和分析能力而一直未使用这些数据，那么这种模式就非常有用。该模式旨在缓解对现有数据存储的负载。所存储的数据可用于初始勘探和即席发现。用户可以推演报告，通过进一步的处理来分析数据的质量和价值。您可以使用 ETL 工具来预处理和净化原始数据，然后再进行任何类型的分析。

图 6. 存储和探索复合模式

图 6 说明了这种模式的多个维度。数据的使用目的可能只是存储它，或处理和使用它。

仅存储的示例是，数据的获取和存储只是为了将来能够满足合规性或法律的要求。在处理和使用的情况下，分析的结果可以被处理和使用。可以从最近发现的来源或从现有的数据存储访问数据。

3.4.2 专业分析和预测分析组件

使用此模式的情况是，使用多种处理技术执行分析，因此，

共7页:

气象大数据资料(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档