数据挖掘与知识发现(DMKD)及其应用的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文阐述了数据挖掘与知识发现(DMKD)的定义及所涉及到的基础理论知识,对当前比较成功的数据挖掘模型进行了分析对比,探讨了适合我国企业现状的数据挖掘模型。
    讨论了数据挖掘所涉及到的前期数据准备问题,主要研究了基于XML的数据整合方案。对处理XML数据样本集的两种处理方式-基于DOM与基于SAX的处理方式分别作了相应的阐述说明与研究。本文根据数据挖掘本身的特点,提出了数据挖掘算法的评价标准与评估方法,并结合实例作了分析。同时就电信业的特点,分析了数据挖掘在电信业中应用的必要性与可行性,提出了在电信行业中数据挖掘系统的结构模型,并对数据挖掘在电信业中的应用方向做了初步的分析与探讨。
The paper states the concept and theoretical basis of the Data Mining and Knowledge Discovery (DMKD) theory. It also deeply studies DMKD model that is appropriate to present Chinese Enterprise via the analysis of present popular DMKD models.
     As for the preparation of data prophase, the paper mainly studies the Data Integration based on XML and also states two manners dealing with XML that are based on DOM and SAX.
     According to the intrinsic character of DMKD, evaluation criterion and method of DMKD Algorithm are put forward and analyzed in this paper. Combined with the character of telecom industry, in this paper a DMKD system structure applied to telecom industry is constituted and the direction of DMKD application to telecom industry is preliminarily analyzed also.
引文
[1] 恒逸资讯郑淑芬 著 北京科海集团公司 2002年01月出版 电子商务整合方案实战--BizTalk Server2000&XML
    [2] 李江 编写 北京希望电子出版社2002年01月出版Instant XML/XSL/Java实例解析 XML/XSL/Java网络编程
    [3] 陈刚等 译 学苑出版社 2001年09月出版 Oracle9i Proguamming with XML 编程手册
    [4] 理查·马丁 编 杨大珩 译 北京希望电子出版社2001年05月出版用XML组建电子商务系统
    [5](美)麦克劳林 著 孙兆林 汪东 王鹏 译 中国电力出版社 2001年04月出版 JAVA与XML
    [6](美)霍尔(Hall,M.)著 邓英材 等 译 人民邮电出版社2001年10月出版 Servlet与JSP核心技术
    [7] 刘丽珏 人民邮电出版社2001年07月出版JDBC与Java数据库程序设计
    [8] (美)Ricbard Monson-Haefel著,朱小明,周琳译 中国电力出版社 2001年03月出版 Enterprise Java Beans 第二版
    [9] 李荣贵 化学工业出版社2000年11月出版网络编程冲浪Java 2.0 网络多线程编程实例教程
    [10] [美]David Iseminger著 北京大学出版社 2001年03月出版 SQL Server 2000 体系结构和对 XML/Internet 的支持
    [11] 杜大鹏等 译 (美) ELLIOTTE RUSTY HAROLD 著中国水利水电出版社2000年04月出版 XML实用大全
    [12] (美)Ben Chang等著 ; 高波,王琰等译 北京: 机械工业出版社, 2001 Oracle XML 开发手册
    [13] 余英泽 ,廖里 ,吴渝。一种新型的数据分析技术—数据挖掘 [J].计算机与现代化 ,2000 ,(1):27~31
    [14]王实,高文。数据挖掘中的聚类方法 [J].计算机科学,2000 ,(4):42~ 45
    [15] 王志海 ,胡可文 .基于粗糙集理论的知识发现综述 [J].模式识别与人工智能 ,1998(2):346
    [16]黄金才 ,陈文伟 。遗传算法和模糊神经网络在数据挖掘中的应用 [J].北京 :清华大学学报 ,1998,(7):50~54
    [17] 刘清,等。 Rough集理论:现状与前景。计算机科学,1997;24(4)
    [18] 欧阳为民,蔡庆生。在数据库中自动发现广义序贯模式。软件学报,1997,8(11):864~870
    [19] 唐常杰,张天庆,于中华,宋晓梅 基于时态数据库的Web数据周期性的发现.全国第15届数据库论文集
    [20] 王清毅,陈恩红,蔡庆生 知识发现的若干问题及应用研究.计算机科学.No. 5 1997
    [21] 汤宇松,刘相峰,黄亚楼,卢桂章 数据挖掘系统设计.系统工程理论与实践2000年9月第9期.
    [22] 周斌,刘亚萍,吴泉源 一个面向电子商务的数据挖掘系统的设计与实现 计算机工程 第26卷 第6期
    [23] 缪里,余英泽,吴渝,聂能 数据挖掘和数据仓库及其在电信业中的应用 重庆邮电学院学报 第12卷 第4期
    [24] 王清毅,张 波,蔡庆生 目前数据挖掘算法的评价 小型微型计算机系统 2000年1月 第21卷 第1期
    [25] J.Matheus Christopher, Chan Philip and Piatetsky-Shapiro Gregory Systems for Knowledge Discovery in Databases IEEE Trans. Knowl. Data Eng., 1993.5(6): DEC
    [26] Piatetsky-Shapiro Gregory, Matheus Christopher, Smyth Padhraic, and Uthurusamy Ramasamy KDD-93: Progress and Challenges in Knowledge Discovery in Databases, AI Magazine, AAAI,1994
    [27] Zytkow Jan M. and Zembowicz Robert Database Exploration in Search of Regularities Journal of Information Systems, 1993.2.39~81
    [28] Klosgen Willi Problems for Knowledge Discovery in Databases and Their Treatment in the Statistics Interpreter Explora International Journal of Intelligent System, 1992,7:649~673
    [29] Shi Zhongzhi. Principles of Machine Learning. International Academic Publishers, 1993
    [30] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, pp. 207-216, 1993
    [31] R. Agrawal, and J. Shafer. Parallel mining of association rules:Design,Implementation, and Experience. Technical Report FJ10004, IBM Almaden Research Center, San Jose, CA 95120, Jan. 1996
    [32] S. Brin, R. Motwani, and C. Silverstein. Beyond market baskets:generlizing association rules to correlations. Proceedings of the ACM SIGMOD, 1996. pages 255-276
    [33] S. Brin, R. Motwani, J. D. Ullman, and S. Tsur. Dynamic Itemset counting and implication rules for market basket data. In ACM SIGMOD International Conference On the Management of Data. 1997
    [34] F. Korn, A. Labrinidis, Y. Kotidis, and C. Faloutsos. Ratio rules: A new paradigm for fast, quantifiable data mining.
    [35] Fayyad U, Shapiro G, Smyth P. The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 1996,39(11):27~34
    [36] Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases. In: Proceedings of the ACM SIGMOD Conference on Management of Data. Washington D.C, 1993. 207~216
    [37] Srikant R, Agrawal R. Mining quantitative association rules in large relational tables. In: Proceedings of the ACM SIGMOD Conference on Management of Data. 1996
    [38] Zhang Zhao-hui, Lu Yu-chang, Zhang Bo. An effective partitioning-combining algorithm for discovering quantitative association rules. In: Proceedings of PAKDD. Singapore, World Scientific Publishing Co., 1997. 241~251
    [39] Agrawal R, Srikant R. Fast algorithm for mining association rules. In: Proceedings of the 20th International Conference on Very Large Databases. Santiago, Chile, 1994
    [40] Houtsma M, Swami A. Set-oriented mining of association rules. In: Proceedings of the 11th International Conference on Data Engineering. 1995. 25~33
    [41] Han J, Huang Y, Cercone Cet al. Intelligent query answering by knowledge discovery techniques. IEEE Transactions on Knowledge and Data Engineering, 1996,8(3):373~390
    [42] John GH,Langley,P.Static versus dynamic sampling for data mining[A]. E.Simondis,J.Han & U.Fayyad, Second International Conference on Knowledge Discovery and Data Mining[C].AAAI Press,Menlo Park,CA,1996:367~370
    [43] Langley P,Simon HA.Applications of machine learning and rule induction[J]. Communications of the ACM,1 995,38:55~ 64
    [44] Fayyad U,Piatetsky-Shapiro G,Smyth,P. From Data mining to knowledge discovery[A]. U.Fayyad,G. Piatetsky-Shapiro &P. Smyth,eds,From Data Mining to Knowledge Discovery[C].AAAI Press/ MIT Press