基于数据挖掘的引文分析

设为首页

收藏本站

网站地图 | English | 公务邮箱

远程访问

NSTL服务站

基于数据挖掘的引文分析

详细信息本馆镜像全文| 推荐本文 | | 获取CNKI官网全文

英文题名：The Citation Analysis Based on Data Mining
副题名：利用模拟日志分析进行相关文献推荐
英文副题名：The Application of Related Document Recommend Based on Simulated Log Analysis
作者：陈祖琴
论文级别：硕士
学科专业名称：情报学
中文关键词：引文分析 ; 数据挖掘 ; 关联规则 ; 算法 ; 相关文献推荐
英文关键词：citation analysis ; data mining ; association rule ; algorithm ; related document recommend
学位年度：2008
导师：郑宏
学科代码：120502
学位授予单位：西南大学
论文提交日期：2008-04-26

摘要

随着引文分析应用范围的拓宽,新的分析方法和指标体系层出不穷,引文统计的数量越来越大,数据的时间跨度也越来越长,传统的手工方式已经不能满足高层次分析的需求。随着计算机技术的不断进步,利用计算机进行自动的引文分析不但成为一种需要,也成为一种可能,计算机引文分析已成为引文分析新的发展方向。同时,计算机引文分析为解决引文分析中所需要的数据和分析统计等提供了强有力的技术支持,为引文分析的正确性和可靠性提供了保障,为文献检索提供了另一种有效的途径,有助于提高查全率和查准率。随着引文分析研究的不断深入,计算机引文分析研究将会变得更加重要。
本文分析了经典关联规则挖掘算法应用于中文引文分析的可行性,研究了关联规则挖掘算法在科技论文引文数据分析中的应用,提出了适用于中文引文分析的改进的混合加权关联规则挖掘算法。一方面,通过用户行为分析确定了相关文献集及加权关联规则挖掘算法中的垂直权重;另一方面,利用Google搜索引擎的PageRank算法确定了加权关联规则挖掘算法中的水平权重。最后,以维普全文数据库为数据源演示了引文的关联规则挖掘在相关文献推荐中的应用,获得了一些有意义的引文分析结果;并且,利用专家评分的方式进行了对比实验,实验结果初步证明了本文所提概念系统计算结果的正确性,体现了本文所提方法的可用性。
With the increasing of citation analysis application, new analysis methods and index system are ever increasing, and the quantities of citation statistic are become larger and larger. The traditional manual ways can not satisfy the more complex request at present. At the same time, the developing of computer technology makes citation analysis automatically, that is, computer citation analysis. The computer citation analysis gives strong technology sustain to data analysis and statistic, ensures the exactness of the analysis, and provides another way to documents retrieval which can enhance the recall and precision. Along with the researching of citation analysis, the computer citation analysis will be more and more important.
We first showed the feasibility of using the association rules mining algorithm in Chinese citation analysis, discussed the application of association rules mining algorithm in analysising citation dada, and then proposed mixed weighted association rules mining algorithm that apply to analyze Chinese citation relations. We defined the weight from the analysis of users' behavior and the Google's PageRank algorithm. Then, we carried out the mining in the application of related document recommend through VIP database, and obtained some meaningful results. At last we provide an experimental comparison of our system's score against the experts' score, and it shows our research's usability.

引文

[1]黄晓斌.计算机引文分析的新发展.情报学报,2006,25(3):354-362.
    [2]邱均平.信息计量学——计算机辅助文献信息计量分析方法与工具.情报理论与实践,2001(4):316-320.
    [3]杨建林,孙明军.利用引文索引数据挖掘学科交叉信息.情报学报,2004,23(12):672-676.
    [4]丁学东.文献计量学基础.北京.北京大学出版社,1993,298.
    [5](美)尤金.加菲尔德著,侯汉清等译.引文索引法的理论及应用.北京:北京图书馆出版社,2004:84-85.
    [6]邱均平.信息计量学(九)——第九讲文献信息引证规律和引文分析法.情报理论与实践.2001(3),236-240.
    [7]丁学东.文献计量学基础.北京.北京大学出版社,1993,307-308.
    [8](美)尤金.加菲尔德著,侯汉清等译.引文索引法的理论及应用.北京:北京图书馆出版社,2004:10-14
    [9]Fayyad U M,Piatetsky-Shapiro G,Smyth P.Advances in Knowledge Discovery and Data Mining[C].AAAI/MIT Press,1996,83-115.
    [10]Chen M,Han J,Yu P S.Data mining:An overview from database perspective[J].IEEE Trans,knowledge and Data Engineering,Augest 1996,833-866.
    [11]Frawley W,Piatesky-Shapiro G,Mtheus C,Knowledge discovery in Database:An overview.In:Piatesky-Shapiro G.Frawley W(eds).Knowledge Discovery in Databases.AAA1/MIT Press.1994.
    [12][加]Jiawei Han,Micheline Kamber著,范明,孟小峰等译.数据挖掘:概念与技术.机械工业出版社,2002(8):150-157.
    [13]张慧敏.引文分析的内涵及研究实证,http://www.cessp.org.cn/xhdt/files/zhm.ppt,2007-1-28.
    [14]廖金波.论引文分析的由来与发展.高校图书馆工作.1999(3),24-26.
    [15]周云平,孙媛.我国引文分析研究现状与21实际发展趋势.图书情报工作.2001(2),80-82.
    [16]丁学东.文献计量学基础.北京.北京大学出版社,1993,355-356.
    [17]丁学东.文献计量学基础.北京.北京大学出版社,1993,357-358.
    [18]丁学东.文献计量学基础.北京.北京大学出版社,1993,359.
    [19]Chen C.Visualizing semantic spaces and author co-citation networks in digital libraries.Information Processing and Management,1999(5):401-420.
    [20]Steven Noel.Visualization of document co-citation counts.In Proceedings of the Sixth International Conference Information Visualization,2002.
    [21]Lin,X.Map displays for information retrieval.Journal of the American Society for Information Science,1997(48):40-54.
    [22]Yulan He,Siu Cheung Hui.Mining a Web Citation Database for Author Co-citation Analysis.Information Processing and Management,2002,38(4):491-508.
    [23]邱均平,张洋.网络信息计量学综述.高校图书馆工作.2005(1),1-12.
    [24]李建.网络结构单元中学术信息分布的计量研究.西南师范大学硕士学位论文,2002.
    [25]崔雷等.文献计量学共引分析系统设计与开发.情报学报,2000,19(4):308-312.
    [26]崔雷.专题文献高被引论文的连续同被引聚类分析.情报理论与实践,1996,19(1):46-48.
    [27]崔雷.专题文献高被引论文的时间分布与同被引聚类分析.情报学报,1995,14(1):54-61.
    [28]王知津,姚广宽.三大中文数据库引文功能比较——CNKI、Vip和CSSCI实证研究.图书情报知识,2005(6):61-65.
    [29]任丽娟.国内五种引文数据库的比较研究.情报科学,2005,23(3):401-405.
    [30]康延兴,李恩科.国内引文数据库发展综述.情报科学,2004,22(6):765-768.
    [31]周军,苏新宁.基于数据仓库的引文分析系统研究.情报学报,2002,21(3):290-294.
    [32]陈定权.同引分析与可视化技术.情报科学,2005,23(4):532-537.
    [33]宋丽萍,徐引篪.基于可视化的作者同被引技术的发展.情报学报,2005,24(2):193-198.
    [34]杨建林,孙明军.利用引文索引数据挖掘学科交叉信息.情报学报,2004,23(6):672-676.
    [35]王昊.基于关联规则挖掘研究学科间相关性.现代图书情报技术,2005(3):23-28.
    [36]马瑞敏,邱均平.基于CSSCI的论文同被引实证计量研究——以图书馆学、情报学为例.图书情报知识,2005(10):77-79.
    [37]赵悦阳,崔雷.专题文献的同被引聚类分析在表现学科专业发展历史的可靠性评价.情报学报,2005,24(4):414-421.
    [38]郑德俊,叶继元.基于合作模式的引文数据库发展策略.大学图书馆学报,2005(1):79-83.
    [39]张付志.一种基于元搜索引擎的数字图书馆互操作解决方案.情报学报,2004,23(4):422-427.
    [40]夏旭.元搜索引擎的发展及其对数字图书馆的贡献.高校图书馆工作,2006(1):28-32.
    [41]胡誉耀.元搜索引擎在数字图书馆中的运用.图书与情报,2003(5):54-55.
    [42]吴沛,粟湘.基于关联规则挖掘的科技论文引文分析——以化学领域科技期刊为例.情报学报,2006,25(6):643-650.
    [43]Zhang CQ,Zhang SC.Association role mining-Models and algorithms-Introduction.LECTURE NOTES IN ARTIFICL4L INTELLIGENCE 2307:1+2002.
    [44]陈祖琴等.基于加权关联规则挖掘的相关文献推荐.现代图书情报技术,2007(10):57-61.
    [45]Agrawal R.,Srikant R.Fast algorithm for mining association rules.In:Proceedings of the International Conference on Very Large Data Bases.Santiago,Chile,1994:487-499.
    [46]路松峰,胡和平.加权关联规则的开采.小型微型计算机系统,2001,22(3):347-350.
    [47]欧阳为民等.数据库中加权关联规则的发现.软件学报,2001,12(4):612-619.
    [481郭岩等.网络日志规模分析和用户兴趣挖掘.计算机学报,2005,28(9):1483-1496.
    [49]陈雪.基于路径的引文分析.西南大学硕士学位论文,2007.
    [50]李长玲,翟雪梅.基于PageRank的引文分析方法探讨.情报理论与实践,2007,30(1):122-124.
    [51]吴淑燕,许涛.PageRank算法的原理简介.图书情报工作,2003(2):55-60.
    [52]李江.链接分析工具研究.武汉大学硕士学位论文,2007.
    [53]Smith A G.Classifying links for substantive Web impact factors.In:Proceedings of the 9th International Conference on Scientometrics and Informetrics,Beijing,2003:305-311.
    [54]http://blogsearch.baidu.corn/,2007-01-01.
    [55]苏新宁.中国社会科学引文索引设计.情报学报,2000,19(4):290-295.
    [56]邱均平,李江.链接分析工具术——博客链接索引(BSI)的功能与应用.图书情报工作,2007,51(9):25-28.
    [57]张讲社,郑亚林编著.计算智能中的仿生学:理论与算法.北京:科学出版社,2003:155-162.
    [58]陈祖琴,郑宏.基于元搜索引擎的中文数据库引文分析系统.现代图书情报技术,2006(11):66-68.
    [59]李海军等.基于JSP的跨库检索技术的研究开发.现代图书情报技术,2004(11):74-76.
    [60]闫敏,李英兰,姜振儒.引文链接项目——CrossRef.情报理论与实践.2002(1),71-72.
    [61]周德群.系统工程概论.北京:科学出版社,2005:202-203.
    [62]卢泰宏.信息分析.广州:中大学出版社,1998,185-216.
    [63]薛薇.SPSS统计分析方法及应用.北京:电子工业出版社,2004,9,184-187.
    [64]周军锋等.一种优化的协同过滤推荐算法.计算机研究与发展,2004,41(10):1842-1847.
    [65]郭艳红,邓贵仕.协同过滤的一种个性化推荐算法研究.计算机应用研究,2008,25(1):39-41.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700