[思来氏]从“数据孤岛”到“数据群岛”ver2.0 - 图文(2)

2019-04-15 14:48

言，想破除数据孤岛就需要首先在数据层面进行集成，建立一个庞大的、完整的、连通的数据仓库。

什么是数据库？

数据库是指依照某种数据模型组织起来，并存放到二级存储器中的数据集合。这种数据集合具有如下特点：（1）尽可能不重复；（2）以最优方式为某个特定组织提供多种应用服务；（3）其数据结构独立于使用它的应用程序；（4）对数据的增、删、改、查由统一的软件进行管理和控制。

通常情况下，一套完整的数据库包括：

1.模型语言，用以描述数据库管理系统的数据模型，并且用于定义各数据库的对象集合（schema）。最常用的三大类分别为层次结构式、网络式及关系式的模型。一个数据库管理系统可提供一种、两种，甚至全部三种方式，也可能提供其他形式。最适合的模型要视乎个别应用程序、交易进行比率及查询的频繁程度等。

2.优化的数据结构（字段、纪录及文件），以支持其能够在永久存储设备（permanent data storage device）上存储极大量的数据。

3.查询语言及撰写报表的程序，让用户可以以交互方式查问数据库，从而进行数据分析，以及根据用户的权限来更新数据。

4.交易机制（最好可以保证ACID特性），保障了多用户同时访问之下，仍能维持数据完整性（data integrity），以及提供故障排除（fault tolerance）。

我们可以用这样一张图来简洁明了地展示一般数据库的结构。

数据库结构层次示意图

? 内部层（Internal Level）：所代表的是实际存储数据的结构。

? 外部层（External Level）或称视界层（View Level）：代表用户或是应用程序所看到的部分。

? 概念层（Conceptual Level）：为内部层与外部层之间的桥梁，可看作是数据库管理师（DBA）所看到的整体部分。

教育中的数据仓库

事实上，数据库在教育领域中的运用已经初见雏形。从学生档案管理系统到学校的教务成绩录入系统，都可以算做是完整数据库的冰山一角。而真正的全面的数据仓库，正是通过关联关系和层次关系，将这些数据库拼接后的产物。

我们来举个例子，通过一个独立的学校的档案管理系统，教育教学工作者可以了解到学生的姓名、性别、家庭情况等基础信息；与此同时，学校的成绩录入系统可以查询学生各门学科的期末考试分数；另一方面，学校的活动管理系统可以查询学生参与活动的情况。

我们不妨做个简单计算，假设这三个系统分别涵盖了10种类别的信息，并假设各自产生了3,000条数据。那么，在三者互相独立的情况下，数据研究者只能解读这三部分各自的结果，也就是对一共三十种类别，共9,000条数据各自进行研究；而在数据贯通的情况下，研究者就可以了解到不同性别的学生、不同年龄的学生，不同家庭背景的学生的不同成绩情况以及活动参与情况，也可以进一步研究活动或是学业受到哪方面因素的影响较大。

学校数据仓库让学生数据在允许类似排列组合的情况下，生成1,000多种类别，3,000,000多条数据，是原有模式数据量的330倍！随着数据库的进一步组合和扩张，信息量将会以指数形式增长。在此前提之下，一套成熟的数据库体系能够帮助我们在更多地掌握学生的信息的同时，允许我们更简便的写入、修改、检索和分析。

结合上述内容来说，学校数据库的建设和管理是急速提升学校数据利用效率的最直接方式之一。就像出口贸易一样，只有当物资被运送到其他地区，并和别

的货物发生了广泛的交换和贸易时，它的价值才得以体现。这就是建立一个完整的教育数据库所具备的意义，让数据交换的速度更快，彻底贯通部门之间壁障，让研究者能够进行有效的分析和判断。

但是，教育数据库绝非一蹴而就的快餐技术，需要整个学校群策群力。而除了要在业务层面达成共识之外，数据库对数据本身的质量要求也极为严格。所以在建立数据库同时，我们也需要对错误数据进行规整。一般而言，发现并纠正数据文件中可识别错误的一道程序称为“数据清洗（Data Cleaning）”，包括检查数据一致性、处理无效值、处理缺失值等过程。

大多时候，数据清洗过程会由计算机通过统一的规则进行，这也大大提升了数据利用的效率。但是，如果递交的数据本身已经存在大量问题，并且无法找出统一的规律，此时强行运用计算机清洗必定会导致大量的数据被错判或是被误删，反而无法起到真正的清洗作用。如果对这样的数据仓库勉强进行数据分析，无疑是“在垃圾的信息上得出垃圾的结论”。所以，下文将列举在实际学校数据填报过程中可能存在的一些普遍性问题，为搭建学校数据库做好前期准备工作。

规范教育数据填报

在实际教育数据采集和填报过程中，我们常常会遇到不同形式的“脏数据（Dirty Data）”，这些数据或是残缺不齐的数据、或是存在错误的数据、或是重复的数据。如果脏数据是由于技术不成熟的原因所致，则一定能随着日新月异的技术更迭而逐渐完善；但如果脏数据的产生是人为所致，并且毫无规律可言，那么机器就无法完全识别。而对于数据库工作者而言，存在过多无法识别的脏数据，很可能导致数据库建立就此停滞，甚至项目整体的失败，致使千里之堤毁于蚁穴。

因此对教育教学工作者和管理者来说，需要在数据填报的过程中对一些常见而可能导致数据填报错误的问题有所警觉，以提升教育教学中的数据质量，为后续教育数据仓库的建立，破除数据孤岛以及对教育数据的分析和挖掘打下基础。以下将列出在教育行业中常见的数据填报错误：

并不统一的录入标准

当采用不同的标准记录同一事物时，你还能发现他们其实是在说明同一件事物吗？在教育数据中，常常会发生因记录的标准或方式不统一而导致机器在识别这类数据时产生困难。

以身高为例，在一份记录学生体检情况的数据表中，学生A的身高被记录为1.55，从经验判断，学生A的身高为1.55m（米）。但是在另外一张数据表中学生A的身高则被记录为155，那么从经验判断，学生A的身高为155cm（厘米），等价于1.55m。

这些看似易于识别的问题，但是机器而言，就需要添加一些规则进行约束，也不利于将来对数据库的维护。倘若上述身高不以公制单位记录，而以英制单位

共4页:

[思来氏]从“数据孤岛”到“数据群岛”ver2.0 - 图文(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档