[思来氏]从“数据孤岛”到“数据群岛”ver2.0 - 图文(3)

2019-04-15 14:48

记录，则很可能造成无法识别的情况。就如在另一张表中，学生A的身高被记录为6’1’’，即6英尺1英寸，那么不仅机器，甚至是人类凭借经验也无法确切识别。

因此，在建立教育数据库之初，就应当对不同的数据字段采用统一的度量标准，以便于机器识别，也便于人工管理。

有待规范的填报内容

除了上述因填报标准所导致的问题外，计算机也无法确切识别因填报内容偏差所致的错误。这一偏差往往会导致错误数据信息的发生，也很可能导致冗余数据的大幅产生。

例如，学生B所在的班级参加了一次春游活动，活动结束后两位带班老师分别进行数据录入。在活动名称一栏中，教师1填写为“春游”，教师2填写为“20XX学年第一学期春游”。那么对机器而言，这一个班级的学生参加的就是不同的活动，这对于后续的数据分析无疑极为不利。

上述内容可以通过对系统加上一定的规则的方式，使机器识别。但是如果在活动名称中出现不同的标点符号、随意添加空格、输入错别字等等情况，规则会更为复杂，从而难以管理。所以，对于教育数据而言，如何对内容进行规整显得尤为重要。

不同粒度（granularity）的填报形式

粒度通常是用于描述物质颗粒大小的术语。在数据库中，是指系统内存扩展增量的最小值，即数据库中所需填报的最低单位内容。这一问题是数据库最为主要的设计问题，影响着数据所能回答的查询类型。填报不同粒度的数据也会导致数据库无法准确识别。

例如，某校举办了“文化活动月”，活动结束后需要各班级上报活动情况数

据。此时A班在活动名称一栏填写了“文化活动月”，而B班则将之拆分为不同活动，包括唱歌、跳舞、朗诵等。那么在数据库中，就会认为B班并未举行“文化活动月”，但B班的活动总数却远远多于A班。

或许在某一次活动后，及时检查能够规避这类问题，但是随着数据量以几何倍数上升，这类问题的审核就变得尤为困难。最终只能人为检查，反而失去了数据库本身高效、准确的意义。因此在数据填报之前，就应当对相应粒度有所规定。

界定模糊的活动类别

在实际教育教学中，存在课程内容或是活动内容互相交叉的现象。在进行填报时，就会发现该类课程或是活动无法被清晰界定。

举例来说，某校开设了一堂拓展型的兴趣课程，课程名称为“小小IT设计师”，课程内容是关于指导学生如何利用制图软件进行平面艺术设计。虽然制图软件应用属于科学技术范畴，但进行艺术设计则应该划分为艺术类范畴。通常，教师在填报此类活动时，会将其划分到某一类中，或将其同时划分到两类，与实际情况存在一定偏差，也为后续进一步统计分析带来不便。

解决这类问题就需要对整体数据模型进行进一步调整，使得同一课程中不同类型的内容能够被详细划分出来。同时，对于不同的活动，教育工作者也需要将其明确界定，并划分为各自独立且不存在交叉的类型。

超出范围的数据内容

当目前的数据体系并不能完全涵盖所需采集的数据时，被排除在类别之外的数据就存在被人为随意划分、随意更改或随意删除的可能性。

例如，在数据库设计之初，仅对某一竞赛获奖等级设臵了一、二、三等奖。但是在实际数据填报中却发现，奖项除了一至三等奖外，还设臵了特等奖、鼓励

奖和参与奖。于是，不同的数据录入员在填报中采取了不同的方式，比如，有无视一、二、三等奖全部填写的，有仅填写一至三等奖的，有将特等奖降级为一等奖处理的等等……

由于我们往往不能全面考虑到数据填报中的所有可能性。因此，在整个教育数据库建设的过程中，需要不同职责的工作者不断沟通交流，并能够及时做出调整。

尚需提高的操作技能

数据库开发和维护需要专业的技术人员，这些都不属于教育教学工作者的职责范围。而教育教学工作者需要为数据库的专业技术人员提供相应的原始数据，这离不开掌握一些基本操作的技术技能。

例如，录入员A和录入员B同时处理相同数据量的内容时，录入员A仅用1个小时就精准地完成了相应的任务；而录入员B则花费了一整天的时间，到最后依然错漏百出。究其原因，A对基本的录入操作已经炉火纯青，在各个环节中均采用了最恰当的技巧，最终使得效率最大化；相较之下，B则毫无操作经验，对于大量重复数据依然采用最原始的手工录入方式，不仅花费了大量的时间，也使得错误发生的概率大大提升。

因此，在实际教育教学工作中，熟练使用一套数据录入软件对教育工作者和管理者百利而无一害。大多时候，只需熟悉一些常用的基本功能，就能达到事半功倍的效果。

尾声：迈向数据群岛

在海量数据面前，我们并非是无能为力的。随着数据与数据之间的屏障被一

点点打通，随着全面的数据仓库被慢慢塑造成型，随着变量与变量之间的关联关系被渐渐确立，一个最终规范的数据仓储与管理系统终将会在教育行业产生。于是在前文所谈及的一些问题，也可以通过更优方式来解决。

目前，这些优化的方式已经有较为成熟的技术支持了，如，通过对大表分组，建立对应的索引，我们可以更为便捷地把数据放在最为正确的位臵；通过优化查询SQL语句、减少关联、少用或不用游标、设计好高效的数据库表结构等方法，可以更为高效的找到我们所需要的数据；通过定制强大的清洗规则和出错处理机制，可以减少数据中的偏差值和错误值，提高数据的有效性。

假如有一天，教育数据真正实现了“数据群岛”，即所有的教育数据都被归总在一起，那么除了实现信息共享、提升管理效率之外，展现在教育教学研究者和工作者面前的将会是一座极为瑰丽的宝库，其中的数据资源可以以任意形式开

采和开发。

不妨畅想一下，学生在校内超市的消费情况与肥胖程度之间是不是会有关系？通过教育数据群岛，我们可以迅速从学生体质健康数据库及学校超市消费情况数据库获取相应的数据结果。若分析发现，爱吃薯片的学生肥胖程度更高，那么学校便可以有意识地与校内超市达成共识，调整薯片的进货数量，或者替换其他品牌、但热量更低的薯片。

再以学生学业质量为例。目前，有越来越多的研究指出学生的学习成绩会受到同伴关系、家庭结构、生活习惯等方面的影响。相较传统数据孤岛，数据群岛就会允许我们在学生学业质量系统、学生家庭问卷调查系统、学生课堂表现调查系统等系统中直接调用相应的数据内容。于是，当我们发现随阅读量上升，学生的语文和英语成绩也会更好时，教师就可以鼓励学生积极阅读；但我们同时发现当阅读书籍数量达到一定程度（譬如每学期3本），学生学习成绩上升不再明显时，教师就可以建议这部分学生参加其他活动以丰富成长体验；或者，当我们又发现洗澡时间稳定的学生学习成绩通常也会更好时，教师就可以针对那些洗澡时间极为不稳定的学生进行进一步的家庭调查，一起探索家庭教育中可能存在的问题，以实现有效的家校互动。

那么，仅仅建立学校数据群岛/学校数据仓库就足够了吗？笔者认为，这个问题的答案有且仅有一个：“绝对不够”。严格来说，学校的数据群岛如果脱离了整个社会，依然只是一座孤岛，哪怕其规模相较其他孤岛要更为庞大。因此，只有当整个社会均被连接在同一个系统之中，孤岛才可能被真正打破。

一项由英国牛津大学的研究人员进行最新研究表明，与那些不玩电子游戏或者玩游戏时间在3小时以上的青少年相比，每天玩1小时电子游戏的青少年的适

应能力更强。但若青少年每天玩1-3小时游戏，那么对他们的适应能力没有明显积极或消极的影响。上述研究中涉及学生玩游戏时间、学校适应能力、社会适应能力等方面的数据。目前，倘若需要获取这些数据，就需要同时访问学校内外的各类数据库，无疑费时费力。如果整个社会数据库互相连通，那么研究所需的成本则必然大大降低。甚至在不远的将来，我们不仅可以获取更为广泛的数据资源，也可以对任何问题所需的相关因素进行更深入的探索。

现在展现在我们眼前的，正是一次契机，大数据时代的到来帮助我们发现了传统教育所缺失的一角，当然我们可以选择避开这些困难，停留在原地继续踏步。但显然唯有努力克服了这些问题，我们才能更全面的把握数据、乃至是大数据、甚至是海量数据，作为我们教育改革，课堂转型的重要依据。我们希望，未来教育的环境，不再是只能够“用经验说话”，而也可以“用数字说话”、“用事实说话”。因此，打通“教育数据孤岛”、构建“教育数据群岛”、运用数据化的教育管理系统、完善教育行业更好的数据环境，是教育真正实现以学生为本的重要前提，也是下一个教育改革阶段里最为重要的一步。

共4页:

[思来氏]从“数据孤岛”到“数据群岛”ver2.0 - 图文(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档