用户名: 密码: 验证码:
基于数据挖掘的Web挖掘系统的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着World Wide Web信息爆炸性的增长,人们迫切需要一种能从Web上快速、有效地获取知识的工具。现有的搜索引擎仅用于Web上的信息检索,而且覆盖率有限、精度不高,无法发现Web上潜在的知识。将传统的数据挖掘与Web结合进行Web挖掘,已成为数据挖掘的一个重要和繁荣的子领域。
     论文侧重于Web挖掘系统自身的构建,建立了一个基于数据挖掘技术的Web挖掘系统的原型Web_Ms,目的是提供一个实用的Web挖掘工具的模型,帮助人们更有效地从Web上获取知识。
     在Web上的半结构化数据的处理上,本文提出了利用XML数据抽取技术将半结构化数据映射为结构化数据、建立多层Web数据库,同时对Web日志预处理的方案,解决了Web挖掘系统数据源规范化的问题。在系统挖掘功能的实现上,采取将集成了多种数据挖掘方法的Web挖掘方法库作为一个模块嵌入系统中的策略,通过规定其接口规范和调用方法,使之与系统其他模块紧密结合,共同完成Web上的数据挖掘。
     Web挖掘系统原型Web_Ms提供了一个Web挖掘工具的模型,对实用的Web挖掘系统的开发具有较好的参考价值,对Web挖掘的理论研究也将起到一定的推动作用。
With the explosive growth of information on the World Wide Web, it is necessary to provide users with tools for efficient knowledge discovery on the Web. The target of the search engine is not knowledge discovery but information retrieval. With the application of data mining to the Web, Web mining has become one of the most important and flourishing fields of data mining.
    This paper emphasizes on the design of Web mining system. A current prototype of Web mining system Web_Ms is presented. The purpose is to provide a practical model for Web mining and make it more effective to discovery knowledge on the Web.
    To deal with the semi-structured data on the. Web, this paper transforms the semi-structured data to well-structured data by extraction based on XML and builds a multilevel Web database. Meanwhile, it preprocesses Web logs. It solves the problem of data standardization for Web mining system. On how to implement the function of mining, this paper takes the strategy that integrates different kinds of methods for mining into a warehouse and inserts it into the system as a module. The module has its own interface and method to be used. It cooperates with other modules to complete the task of Web mining.
    The prototype of Web mining system Web_Ms not only provides a valued model for developing tools for Web mining, but also promotes the research of Web mining in turn.
引文
1 Han J. Conference tutorial notes: data mining techniques. In: Proceedings of ACM SIGMOD International Conference'96 on Management of Data (SIGM OD'96). Montreal, Canada, June 1996.
    2 Agrawal,R.,T.Imielinski,andA.Swami. Database mining:a performance perspective. IEEE Trans. Knowledge and Data Engineering, 1993,5(6):914-925
    3 Chen M S, Han J W, Yu P S. Data Mining: An Overview from Database Perspective. In IEEE Transaction on Knowledge and Data Engineering, 1996,8(6): 866-883
    4 Ke Wang and Huiqing Liu. Schema Discovery from Semi-structured Data. In Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining. Newport Beach, 1997
    5 B.Wuthrich, D.Permunetilleke, S.Leung, V.Cho, J.Zhang and W.Lam. Daily Prediction of Major Stock Indices from Textual WWW Data. In Proceedings of the 4th International Conference on Knowledge Discovery. New York, 1998.
    6 Ellen Spertus. ParaSite: Mining Structural Information on the Web. In Proceedings of the sixth International World Wide Web Conference, 1997.
    7 Etaioni O. The World Wide Web: Quagmire or gold mine. Communications of ACM, 1996,39(11):65-68
    8 Gurpe F H, Owrang M M. Database mining: discovering new knowledge and competitive advantage. Information System Management, 1995,12(3):26-31
    9 Chakrabarti S. Data mining for hypertext: A tutorial survey. SIGKDD Exploration, 2000,1(2):1-11
    10 Sergey Brin, Lawrence Page. The Anatomy of Large-scale Hyper textual Web Search Engine. In Proceedings of the Seventh International World Wide Web Conference, 1998.
    11 Witten,I.H., Z.bray, M.Mahoui, and W. Teahan. Text mining:A new frontier for lossless compression. In Storer, J.A., and M.Cohn, editors, Proc. Data Compression Conference,1999. Snowbird, UT. Los Alamitos, CA:IEEE Press, pp,198-207
    12 S.Chaudhuri and U.Dayal.An Overview of Data Warehousing and OLAP Technology.
    
    ACM SIGMOD Record, Vol.26,1997, pp.65-74
    13 韩家炜,孟晓峰,王静等.Web挖掘研究.计算机研究与发展,2001,38(4):405-410
    14 陈莉,焦李成.Internet/Web数据挖掘研究现状及最新进展.西安电子科技大学学报(自然科学版),2001,28(1):114-118
    15 Jeawei Han,Micheline Kamber著.数据挖掘概念与技术.第一版.北京:机械工业出版社,2001.290-296
    16 孟小峰.Web数据管理研究综述.计算机研究与发展,2001,38(4):385-394
    17 王实,高文,李锦涛.Web数据挖掘.计算机科学,2000,27(4):28-31
    18 高飞,谢维信.互联网上的数据挖掘.计算机科学,2001,28(5):81-84
    19 张卫丰,徐宝文,周晓宇等.Web搜索引擎综述.计算机科学,2001,28(9):24-28
    20 张卫丰,徐宝文.Web搜索引擎框架研究.计算机研究与发展,2000,37(3):376-378
    21 邓英,李明.Web数据挖掘技术及工具研究.计算机工程与应用,2001,20:92-94
    22 宋伟,王举成,马根峰等.Internet数据挖掘原理及实现.重庆邮电学院学报,2001,13(2):58-62
    23 王利强,唐常杰,于中华等.基于Web的数据采掘.计算机应用,1998,18(10):9-12
    24 张维明,邓苏等编著.数据仓库原理与应用.第一版.北京:电子工业出版社,2002.140-153
    25 郝先臣,张德干,尹国成等.用于电子商务中的数据挖掘技术研究.小型微型计算机系统,2001,22(7):785-788
    26 张娥,冯秋红,宣慧玉等.Web使用模式研究中的数据挖掘.计算机应用研究,2001,3:80-83
    27 王继成,邹涛,杨小江等.基于Internet的信息资源发现技术与实现.计算机研究与发展,1999,36(11):1369-1373
    28 王继成,潘金贵,张福炎.Web文本挖掘技术研究.计算机研究与发展,2000,37(5):513-519
    29 吴恒山,熊波.可扩展标记语言XML的产生于应用技术.计算机工程与应用,2000,14:65-67
    30 Gill H,Rao P编著.王仲谋,刘书舟译.数据仓库——客户/服务器计算指南.第一版.北京:清华大学出版社,1997.184-196
    
    
    31 郝先臣,张德干,高光来等.数据挖掘工具和应用中的问题.东北大学学报(自然科学版),2001,22(2):183-186
    32 陆丽娜,杨怡玲,管旭东等.Web日志挖掘中的数据预处理的研究.计算机工程,2000,26(4):66-72
    33 李煊,庄镇泉.Web访问挖掘预处理的用户识别算法.计算机工程与应用,2002,7:173-176
    34 张素智,卢正鼎,李春林.XML数据库及其应用研究.计算机工程与应用,2002,8:32-36
    35 王静,傅秀芬.应用XML技术在互联网上发布数据库.广东工业大学学报,2001,18(4):35-39
    36 李由,肖卫东,徐振宁等.XML数据库存储技术的研究与实现.计算机工程,2002,28(7):86-88
    37 李秀,廖璘,刘文煌.基于Web的数据仓库系统的研究.计算机工程,27(11):44-46
    38 周斌,刘亚萍,吴泉源.一个面向电子商务的数据挖掘系统的设计与实现.计算机工程,2000,26(6):18-20
    39 汤宇松,刘相峰,黄亚楼等.数据挖掘系统设计.系统工程理论与实践,2000,9:56-61
    40 胡和平,陈鹰.应用多维数据立方体开采Web日志的多维关联规则.计算机应用研究,1995,10:34-37
    41 刘夫涛,张雷,艾波.OLAM以及基于Web的OLAM.计算机工程与应用,2000,9:108-156
    42 高毅龙.Web服务器访问日志的保存方法及其实现.计算机工程,1999,25(9):47-48
    43 郑秀丽,王乐宁,陈中柱.基于数据挖掘技术的电子商务客户潜力开发方案.计算机工程与应用,2002,5:194-195

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700