用户名: 密码: 验证码:
关联规则算法在高职院校贫困生认定工作中的应用
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着高职类院校招生规模的迅速扩大,贫困生数量也随之急剧增加,贫困生问题已成为学校学生工作的重要内容之一。然而,传统的贫困生认定工作通过这些年的工作实践后,发现存在很多的不足之处,迫切需要一套科学规范、易于操作的方法来完善贫困生认定工作,使贫困生认定工作能够高效、有序、合理地进行。因此,对高职类院校贫困生认定的研究有着重要的意义。
     高职类院校通过多年的发展,已经累积了大量的数据,如此多的数据在给教育工作者提供便利的同时也带来了很多的困惑,如何正确寻求隐藏在数据背后的有价值的信息以及发现蕴含在海量数据背后的潜在的联系和规则呢?数据挖掘技术可以帮助我们解决这个问题。数据挖掘技术融合了多个学科的知识,它能够从海量的数据中发现我们事先并不知道但却对我们有价值的信息。
     本文首先介绍了数据挖掘的基本知识,包括数据挖掘的概念、分类、过程及其挖掘常用技术;其次介绍了数据挖掘前的数据预处理,生成经过集成和转换处理后的数据信息总表;再次提出了关联规则的相关算法,包括Apriori算法和FP-growth算法以及在此基础上改进型的算法,接着利用这些算法对经过预处理的数据进行数据挖掘,生成相应的关联规则,对几种常用的关联规则算法进行了比较。从一定程度上来说,改进型的算法在寻求频繁项目集上减少了时间,尤其对数据仓库中巨大数据量进行挖掘的时候,效果明显,但是不管采用论文中介绍的哪种关联规则算法进行的数据挖掘所生成的关联规则结果应该都是一样的;最后把生成的关联规则结果与学校贫困生资助系统中实际的贫困生的相关信息作比较,分析挖掘效率,并说明产生这种结果的原因以及指出在以后贫困生认定过程中所要加强关注的方面。
     数据挖掘的技术还有很多种,而且每种挖掘技术的挖掘效率也不一定完全相同,针对具体的问题如何去选择好的挖掘算法,提高挖掘效率是今后研究的一个重要方向;而且目前高职类院校在学生管理工作中使用数据挖掘技术的地方还不多也不够深入,所以对数据挖掘技术在高职类院校贫困生认定工作中的应用研究有着广阔的前景。
With the rapid expanding of higher vocational colleges'recruitment, the number of impoverished students are sharply increasing. The issue of impoverished students now has become one of the most important things in college.
     However, after many years practice, a lot of disadvantages have been found in the traditional endorsement of impoverished students; thus a set of scientific easy-to-use methods is urgently needed to improve the endorsement which can be processed efficiently and reasonably. So the research work of endorsement of impoverished students in higher vocational colleges is so meaningful.
     After many years development the higher vocational colleges have accumulated a large sum of data which provides convenience with confusion to the educators. How to correctly research the valuable information hidden behinde the data and find out the potential relation and regulation contained in the mass data? Data mining technique can help us to solve this problem. Data mining technique combines multiple disciplines of knowledge,it can help up from the vast amount ot data but that we do not know in advance of our valuable information.
     This thesis starts with the basic knowledge of data mining, including its definition, classification, process and some commonly-used techniques. Then it presents the general table of data information which is preprocessed, processed and converted before data mining. Then it introduces some algorithm of association rules which includes Apriori algorithm, FP-growth mining algorithm and the improved ones based on them in order to generate and compare the association rules that are mined from the preprocessed data. To some extent, the improved algorithums reduces the time in searching the frequent itemset, especially obvious in mining the huge amount of data in data warehouse. But whatever association rule is adopted,only the same result is generated. Last but not the least, it compares the result generated by the association rule with the actrual impoverished students'information in the colleges' support system to analyse the mining efficiency and explain the reason of the result. The thesis also points out the aspects to which should be payed close attention in Endorsement of Impoverished Students.
     There are also plenty of data mining techniques with the same mining efficiency. To address specific problem,choosing the right mining algorithm to improve the mining efficiency is one of the most important subjects in the future. What's more, data mining technique in the higher vocational colleges'students' management work still needs to be further explored at present, which makes it a promising future in the research work of data mining in higher vocational colleges' endorsement of impoverished students.
引文
[1]刘永琴.高校贫困生的现状、成因及对策[J].高教探索,2001(1):65-67.
    [2]孙楠.高校贫困生管理系统中数据挖掘技术应用探讨[J].中国林业教育,2007(5):28-31.
    [3]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
    [4]李雄飞,董元方,李军.数据挖掘与知识发现(第2版)[M].北京:高等教育出版社,2010.
    [5]王珊,萨师煊.数据库系统概论[M].北京:高等教育出版社,2010.
    [6]邹良颖.图书销售智能分析系统设计与实现[D].上海:同济大学,2009.
    [7]William H. Inmon著,王志海等译.数据仓库[M].北京:机械工业出版社,2006.
    [8]吕婧.基于数据挖掘的客户分析研究[D].北京:北京工业大学,2010.
    [9]高伟华.基于BP神经网络的WEB数据挖掘[D].武汉:中南民族大学,2010.
    [10]Jiawei Han, Micheline Kamber著,范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001.
    [11]涂明.关联规则增量式更新算法研究[D].合肥:合肥工业大学,2010.
    [12]张华波.基于数据挖掘的科技计划项目绩效评价系统的应用研究[D].浙江:浙江工业大学,2009.
    [13]孙毅.基于数据挖掘技术的案件质量分析系统[D].北京:北京大学,2009.
    [14]李俊.基于支持向量机的船舶交通事故预测研究[D].武汉:武汉理工大学,2008.
    [15]富野.健康计划管理系统的设计与实现[D].北京:北京邮电大学,2009.
    [16]张予.数据挖掘技术在高危人员犯罪信息挖掘的应用研究[D].南昌:南昌大学,2009.
    [17]林艳.数据挖掘在教学质量分析评价中的应用研究[D].北京:北京工业大学,2009.
    [18]孙楠.高校贫困生评价数据平台构建与分析研究[D].北京:北京林业大学,2007.
    [19]Jiawei Han, Micheline Kamber, Data Mining Concepts and Techniques[M].北京:高等教育出版社,2001.
    [20]李剑.数据挖掘技术在学生助学系统中的应用[D].南京:东南大学,2009.
    [21]姚亮.关联规则数据挖掘技术在税收执法管理中的应用研究[D].合肥:合肥工业大学,2007.
    [22]付宝君.关联规则在贫困生认定中的应用[D].哈尔滨:哈尔滨工程大学,2008.
    [23]张华波.基于数据挖掘的科技计划项目绩效评价系统的应用研究[D].浙江:浙江工业大学,2009.
    [24]李松.基于关联规则算法的干旱检测系统的研究与实现[D].太原:太原理工大学.
    [25]J. S. Park, M. S. Chen, P. S. Yu. An Effective Hash Based Algorithm for Mining Association Rules. MichaelJ. Careyand Donovan Schneider, Proceedings of the ACM-SIGMOD International Conference On Management of Data(SIGMOD'95), San Jose, California,1995, ACM Press Publisher,1995:175-186.
    [26]R. Agrawal and R. Srikant. Fast Algorithms for Mining Association Rules. Jorge B.Bocca, Matthias Jarke, and Carlo Zaniolo, Proceedings of the 20th International Conference on Very Large Databases(VLDB' 94), Santiago, Chile,1994, Morgan Kaufinann Publisher,1994:487-499.
    [27]A. Savasere, E. Omiecinski, S. Navathe. An efficient algorithm for mining association rules in large databases. Umeshwar Dayal, PeterM. D. Gray, and Shojiro Nishio. Proceedings of the 21 St International Conference on Very Large Databases(VLDB'95), Zurich, Switzerland,1995,MorganKaufinannPublisher,1995:432-443.
    [28]H. Toivonen. Sampling large databases for association rules. T. M. Vijayaraman, Alejandro P. Buchmann, C. Mohan, and NandlalL, Sarda, Proceedings of the 22na International Conference on Very Large Databases(VLDB'96), Bombay, India,1996, Morgan Kaufinann Publisher,1996:134-145.
    [29]仲波.基于关联规则的隐私保护算法研究[D].兰州:兰州理工大学,2007.
    [30]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
    [31]郑阿奇.SQL Server实用教程[M].北京:电子工业出版社,2007.
    [32]梅俊.数据挖掘中关联规则算法的研究及应用[D].芜湖:安徽工程大学,2010.
    [33]傅莉.数据挖掘在教学评估中的应用[D].南京:南京理工大学,2007.
    [34]耿三靖.数据挖掘技术在高校教学评价中的应用研究[D],焦作:河南理工大学,2010.
    [35]况莉莉.Apriori算法与FP-tree算法的探讨[J].淮北煤炭师范学院学报,2010,31(2):44-49.
    [36]宋茹桦.关联规则挖掘算法研究与应用[D].山东:山东大学,2006.
    [37]黎仁国.数据挖掘技术在贫困生评定中的应用[J].内江师范学院学报,2010,25(4):54-56.
    [38]尤磊,兰洋.一种改进的FP-growth关联规则算法的实现[J].河南科技,2010(6): 50-51.
    [39]张昕鹏.高校贫困生认定方法与资助体系的研究[D].无锡:江南大学,2009.
    [40]李剑波.数据挖掘技术在高校贫困生综合评价中的应用[J].商业文化,2009(7):299-301.
    [41]陈琴.数字化校园中数据挖掘技术的应用研究[D].武汉:华中农业大学,2009.
    [42]刘建兰.数据挖掘技术在客户关联管理中的应用研究[D].南昌:南昌大学,2010.
    [43]严华,陈文菁.关联规则在学生成绩分析中的应用[J].福建医科大学学报,2008,9(1):46-49.
    [44]张玉林.数据挖掘技术在教学过程中的指导作用[J].西安通信学院学报,2006,5(2):38-40.
    [45]施亚明.数据挖掘在信用卡客户细分与目标营销方面的应用研究[D].南京:东南大学,2006.
    [46]董雪.基于IG_NN双层属性选择的客户流失预警研究[D].天津:天津财经大学,2010.
    [47]彭涛.数据挖掘技术在实时网络入侵检测系统中的应用[D].吉林:吉林大学,2004.
    [48]任厦.关联规则经典算法改进及其在商业智能上的应用研究[D].天津:天津大学,2006.
    [49]刘桂花.基于云模型的关联规则的研究[D].山东:山东师范大学,2007.
    [50]文蓉.数据挖掘中关联规则算法及应用研究[D].湖南:湖南大学,2007.
    [51]胡尔江.数据挖掘在服装CRM中的应用[D].广州:华南理工大学,2010.
    [52]陈峰.基于聚类的增量数据挖掘研究[D].大连:大连海事大学,2007.
    [53]盛立.基于粗糙集理论的数据挖掘方法的研究[D].山东:山东师范大学,2006.
    [54]解方文.基于.net的高校贫困生管理信息系统设计与实现[D].上海:华东师范大学,2008.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700