基于数据挖掘的中小学图书馆管理分析

2021-05-08 04:07

  摘要:近年来,各地中小学图书馆信息化管理发展迅速。基于教育信息化背景,使用数据挖掘方法,采用聚类分析、关联规则两种算法对真实数据进行探索,从而为图书馆管理提供科学依据、为资源的有效配置提供借鉴。


  关键词:数据挖掘;中小学图书馆;图书馆信息化


  1前言


  数据挖掘也称数据库中的知识发现(KDD,KnowledgeDiscoveryinDatabase)[1],于1989年被正式提出,之后伴随着信息化的迅速发展,数据挖掘作为一门综合学科的技术知识,也获得快速发展。简单地说,数据挖掘就是通过对数据的各种分析,得出有用的信息。然而它又不同于传统的统计分析。传统的统计分析是对数据进行带有某种目的的处理分析,数据挖掘是对数据进行综合处理,发现其中未知的、隐含的知识。这是一种新的分析处理手段,也是目前大数据处理中流行的分析方法,结果往往会超出传统认知,从而发现新的知识。其经典案例有通过对美国超市销售数据的分析,发现每周五晚上买啤酒的男士通常会购买尿不湿这一现象,之后营销学和市场学再对这一结果进行原因分析和营销战略分析。这种分析方式在信息化迅速发展的背景下,应用领域广泛,零售业、金融业、医疗教育行业等。


  目前,国内外已经有大量的文献研究将数据挖掘技术应用于图书管理,其中大多数以某个学校、某个图书馆或者某个连锁书店为分析对象,还有一些研究立足于图书阅读与学生综合素质之间的关联分析。本文以一个省级图书管理平台为分析对象,采用数据挖掘中的聚类分析和关联规则两种算法对平台数据进行分析,发现其中未知的隐含信息,力求从更好地服务读者、更方便地管理图书、更有效地配置资源几个方面提供可用信息。


  2数据准备


  数据平台我国教育部在2010年《国家中长期教育改革和发展规划纲要(2010—2020年)》和2012年《教育信息化十年发展规划(2010—2020年)》中均提到了中小学图书馆管理信息化问题,各省中小学图书馆管理信息化快速发展。图书馆信息化带来庞大的数据,要想利用好这些数据来为中小学读者、管理人员带来更加有效的信息,就会面对几个实际的问题:1)由于各地经济发展状况等不完全一致,客观表现不一,中小学图书馆建设情况各不相同;2)中小学图书馆各自归属不一样,数据库建设标准各有不同;3)部分学校图书馆信息化建设平台已经完成,但错误信息较多、使用较少;4)对已经运行较好的图书馆信息化系统积累的大量数据的利用不足。


  四川省教育厅于2012年结合全省实际情况,在相关政策的指导下,开始建立省级图书管理平台,涵盖全省所有中小学图书馆的馆藏数据和流通数据。该平台帮助全省各中小学图书馆信息化工作的开展,通过建设管理平台,全省各中小学图书馆一方面统一建设标准,另一方面发现纠正数据库错误,形成真实有效的图书馆数据信息。


  数据选取本研究数据均采集于四川省省级图书管理平台,时间窗口定于2012年9月到2014年12月。通过对全省图书信息化的调研分析,决定采用图书信息化实际发展差距不大的区域进行分析挖掘。以省会城市的数据为例采集数据,同时将其按照主城区和周边城区两个部分进行拆分,对两个部分的数据采用相同的数据挖掘算法进行分析,挖掘不同区域的信息,同时可以结合数据挖掘的结果进行对比分析。


  本研究将选用图书馆代码、图书馆所属城市、图书分类号、书名、作者、借阅人姓名、借阅人性别、借阅时间、归还时间等19个维度进行挖掘分析,详见表1数据挖掘字段。


  图书分类方法采用中图法基本分类:A—马克思主义、列宁主义、毛泽东思想、邓小平理论;N—自然科学总论;B—哲学、宗教;O—数理科学和化学;C—社会科学总论;P—天文学、地球科学;D—政治、法律;Q—生物科学;E—军事;R—医药、卫生;F—经济;S—农业科学;G—文化、科学、教育、体育;T—工业技术;H—语言、文字;U—交通运输;I—文学;V—航空、航天;J—艺术;X—环境科学、安全科学;K—历史、地理;Z—综合性图书。


  3数据挖掘分析


  数据挖掘主要包括两个方面,一是挖掘结构,一个是挖掘算法。需要从挖掘结构中获得相应数据,然后再使用算法进行分析。数据挖掘的算法很多,如决策树算法、聚类分析算法、关联算法、时序算法和线性回归算法等,大多数算法都能达到几种不同的功能,在实际运用中,根据不同需要,采用不同的数据挖掘方法,比如人工神经网络、关联分析、遗传算法、聚类分析等。本文主要采用聚类分析和关联分析两种方法,针对以上选取数据进行分析。


  聚类分析聚类分析(ClusteringAnalysis)是一组将研究对象分为相对同质的群组的统计分析技术,按照它们的属性上的亲疏远近进行分类,也可以说聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类别的分析过程。


  聚类分析在图书馆文献研究中,通常选用年龄、学历、收入等量化指标进行聚类情况,本文将从图书类别、性别和借阅时间(月)三个维度进行聚类,尝试发掘新的知识点。


  主城区聚类分析根据主城区数据中性别、借阅时间和图书类别进行聚类,自动分成了10类,从聚类结果的分类剖面图可以看到各个变量的整体情况,比如从性别来看,中小学图书馆的借阅情况中,几乎男女借阅比例是五五比例,全年来看,借书月份按照从多到少排列,依次是12、11、10、3这几个月,12月是借书最多的月份。借书类别按照从多到少,依次是I、J、H、G类,其中最大的则为I类——文学类图书,但是分别看各类的情况,则差异较大,具体如图1所示。


  表1数据挖掘字段


  图1主城区聚类分析分类剖面图


  分类1:借阅人性别几乎都为男生,主要集中在10月和12月借书,借阅I类图书最多。


  分类2:借阅人性别都是女生,主要集中在11月份借书,借阅书籍I类最多。


  分类3:借阅人性别均为女生,主要集中在12月份借书,借阅类型I类最多。


  分类4:借阅人性别几乎都为男生,借阅时间几乎都是11月,借阅类型I类最多。



基于数据挖掘的中小学图书馆管理分析.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:高校思想政治教育“教辅结合”模式探析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: