分类5:借阅人性别均为女生,借阅时间主要都为10月,借阅类型I类最多。
分类6:借阅人性别几乎都为男生,但是没有在最集中借阅的3、10、11、12几个月中借阅,借阅类别最多的I类。
分类7:借阅人性别几乎都为男生,但是没有在最集中借阅的3、10、11、12几个月中借阅,借阅类别最多的I类。
分类8:借阅人性别上女生稍微多一些,但是没有在最集中借阅的3、10、11、12几个月中借阅,借阅类别最多的I类。
分类9:借阅人90%为男生,主要集中在3月进行借书,借书类型主要为I类。
分类10:借阅人性别基本为女生,都集中在3月份借书,其I类图书借阅比例也是最高的。
非主城区聚类分析对非主城区进行聚类,根据性别、借阅时间和图书类别聚类结果,也自动聚类成为了10类。从聚类结果的分类剖面图我们可以看到各个变量的整体情况,比如从性别来看,中小学图书馆的借阅情况中,几乎男女借阅比例是均衡的,全年来看,借书月份按照从多到少排列,依次是12、6、11、10几个月,12月是借书最多的月份。借书类别按照从多到少,依次是I、P、H、G类,其中最大的则为I类——文学类图书,但是分别看到各类的情况,则差异较大,具体如图2所示。
图2非主城区聚类分析分类剖面图
分类1:借阅人性别都为女生,主要集中在12月借书,借阅I类图书最多。
分类2:借阅人性别都是男生,主要集中在12月份借书,借阅书籍I类最多。
分类3:借阅人性别均为女生,主要集中在11月份借书,借阅类型I类最多。
分类4:借阅人性别都为男生,借阅时间以10月为主,借阅类型I类最多。
分类5:借阅人性别都为女生,但是没有在最集中借阅的6、10、11、12几个月中借阅,借阅类别最多的I类。
分类6:借阅人性别都是女生,主要集中在10月份借书,借阅书籍I类最多。
分类7:借阅人性别均为男生,但是没有在最集中借阅的6、10、11、12几个月中借阅,借阅类别最多的I类。
分类8:借阅人性别都为男生,大部分借阅时间以11月为主,借阅类型I类最多。
分类9:借阅人性别都是女生,主要集中在6月份借书,借阅书籍P类最多。
分类10:借阅人性别都为男生,大部分借阅时间以6月为主,借阅类型P类最多。
聚类结果分析总体上看,主城区借书的男女总体比例基本均衡,借书的时间集中月份分别是12、11、10、3几个月,12月是借书最多的月份。借书类别主要集中在I、J、H、G类,其中最大的则为I类——文学类图书。非主城区男女借书比例基本均衡,借阅时间和图书种类两个维度不同,如表2所示。
表2主城区和非主城区聚类分析结果总体对照表
针对他们从总体上展现出来的不一样,尤其是读书的时间,虽然大体上都集中在12、11、10三个月,但是主城区3月借书的集中度排在第四,非主城区10月借书的集中度排在第二。
结合实际抽查访问,学生集中年末借书,跟气候、新的学期都很大关系,而3月和6月这两个数字,分别说明两个问题,主城区3月读书,是因为新学期开学和春天气候适合阅读,而非主城区6月借阅很多,却主要是因为暑假时间长,放假前学生假期阅读计划较多。
从两个结果来看,大致可以推断寒暑假对于主城区学生读书影响不大,但是这个也体现了另外一个问题,寒暑假期间图书馆不对学生开放非常影响学生阅读,也许寒暑假图书馆能够继续开放,我们能够得到完全不一样的结果。
我们再来看看借阅图书的类别情况,其实也很有意思。虽然都是一个城市,但是主城区和非主城区竟然在借阅种类集中度排名第二的类别上发生了不一样,主城区主要借阅类别集中度排名第二是J文艺,而非主城区借阅类别集中度排名第二是P天文、地球、科学。其他都一样,第一名是I文学类,第三名是H语言文学类,第四名是文化科学、教育、体育类。
主城区中小学生对于艺术的爱好相对较高,可能跟城市氛围有关,相对主城区的经济会较好,受到城市的艺术熏陶较多,毕竟通常主城区的艺术展会多于非主城区,而非主城区的孩子却对天文、地球、科学产生浓厚兴趣,也许跟他们相对主城区孩子,离自然更近的原因。
图3频繁项集的样例图
图4主城区关联规则图(1)
关联规则关联规则主要是挖掘寻找给定数据集中,项之间的关联或相关度,揭示某种数据项间的未知依赖关系,运用关联规则可以从一个对象推断另一个对象。比如之前提到的尿布和啤酒的故事,超市通过这个算法发现买尿布的也会买啤酒,这种情况不是事先能够想到然后进行验证,产生关联规则的方法是找出数据库中的频繁项集,然后由频繁项集产生关联规则,为了判断关联规则的有效性。这种情况不是事先能够想到然后进行验证,产生关联规则的方法是找出数据库中的频繁项集,然后由频繁项集产生关联规则,为了判断关联规则的有效性,通常采用三个指标进行评价,分别是支持度(Support)、可信度(Confidence)和提升度(Lift)。其三个指标的含义分别是,支持度(Support)指的是对象包含的产品同时出现的概念;可信度(Confidence)指的是一个产品出现的同时,另一个产品出现的几率;提升度(Lift)是两种可能性的比较,也就是已知一个产品出现的同时,另外一种产品也出现的可能性,与任意情况下,这两个产品出现的可能性的概率比值或者差值。
图5主城区关联规则图(2)
图6非主城区关联规则项集图
本研究将从以上三个指标挖掘主城区和非主城区图书类别借阅之间的关联关系。
主城区关联分析基于关联规则挖掘模型对主城区的数据分析处理,可以获得复杂的项集及其依赖关系网络,如图3所示。
图3是频繁项集的样例图,显示了关联规则算法所挖掘出来的频繁项集,即是哪些类别的书出现的情况频繁支持度。可以看到,J、G、I类的支持度最大,为3862。根据其支持度从大到小排名,组合前十的为JGI、HGI、HJI、ZGI、KGI、ZJI、KJI、BGI、ZHZ、KHZ。