文献[20]和文献[21]提出了一些数据质量的评估指标。在进行数据质量评估时,要根据具体的数据质量评估需求对数据质量评估指标进行相应的取舍。但是,数据质量评估至少应该包含以下两方面的基本评估指标[18]。
(1)数据对用户必须是可信的
可信性包括精确性、完整性、一致性、有效性、唯一性等指标。 ①精确性:描述数据是否与其对应的客观实体的特征相一致。 ②完整性:描述数据是否存在缺失记录或缺失字段。
③一致性:描述同一实体的同一属性的值在不同的系统是否一致。 ④有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。 ⑤唯一性:描述数据是否存在重复记录。 (2)数据对用户必须是可用的 包括时间性、稳定性等指标。
①时间性:描述数据是当前数据还是历史数据。
②稳定性:描述数据是否是稳定的,是否在其有效期内。 6 数据清洗研究和应用展望
(1)中文数据清理工具的研究和开发
目前,数据清理主要集中在西文上,中文数据清理与西文数据清理有较大的不同(如很多匹配算法并不适用于中文)。中文数据清理还没有引起重视。 (2)数据挖掘方法在数据清理中的深入应用
主要集中在数值型、字符串型字段。识别数值型字段之间的关系异常很不成熟与实用。数据挖掘算法在数据清理中的应用亟需加强[22]。 (3)重复记录识别的效率需要进一步提高 尽管识别重复记录受到最多的关注,并采取了许多措施,但识别效率与识别精度问题的解决并不令人满意。特别是在记录数据非常多时,耗时太多,有待研究更好的算法。 (4)非结构化数据的清洗
以前数据清理主要集中在结构化的数据上,而现在非结构化数据或半结构化的数据(如XML数据)已受到越来越多的重视。特别是由于XML自身所具有的特点(通用性、自描述性),在数据清理中应受到重视。
(5)数据清洗工具之间的互操作性 尽管根据用户友好性,很多工具或系统都提供了描述性语言,但基本上都是经过某种已有语言(如SQL、XML)根据自己需要经过扩展实现的,不能很好地满足数据清理中大致匹配的需要,不具有互操作性。 (6)数据清理方案的通用性
特定领域的数据清理问题依然是研究和应用重点,但较通用的清洗方案会受到越来越多的关注。