数据仓库数据集成处理中的异构数据接口的设计与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
数据仓库系统是随着分析型应用的兴起而发展而来,旨在帮助企业充分利用宝贵的信息资源,做出正确的决策。数据仓库虽然为决策支持系统的数据存储和管理提供了解决方案,但是原始数据还存储在文本文件、XML文档、电子表格和关系数据库等各种数据源中,如何将这些数据加载到数据仓库中成了新的问题。因为数据仓库的数据存储和组织形式与文件、电子表格相去甚远,即使是与操作型关系数据库相比也有相当大的差异,所以把各种原始数据直接导入数据仓库是不切实际的。而本论文通过实现一个集成转换工具,为数据仓库提供清洁、规范的数据。
     本论文首先讨论分析一些本系统中所采用的相关技术,Web Services技术、元数据技术和数据仓库ETL技术,然后分析了如何通过Web Services来封装各个远程的异构数据源,这些异构数据源的元数据信息通过元数据库来统一管理,并对数据仓库中关键技术ETL进行了深入的研究,最终实现了一种灵活、操作方便、可扩展的数据集成转换工具。
     本系统基于微软的.NET平台开发,从异构数据源的析取、转换、装载到元数据管理提供了一整套的解决方案。
The data warehouse system is emerges along with the analysis application develops comes, to be for the purpose of helping the enterprise to fully utilize the valuable information resources and making the correct decisions. Although the data warehouse has provided the solution for decision support system's data storage and the management, but the raw data also saves in the text document, the XML documents, the electronic forms, the relational database and other data sources, how these data will be loaded into the data Warehouse has become a new problem. Because data warehouse's data storage, the configuration of organization and the document are very different with the electronic forms, even if compares with the operation relational database also has the quite big difference, therefore directly load different kind of law data into the data warehouse is impractical. But this article we through realize a general ETL tool, provides a general solution for data warehouse's policy-maker.
     This article first analyzes some and system-related technology, the Web Services technology, the metadata technology and the data warehouse ETL technology, then discussed the integration and application of Web Services in different data sources, and have an in-depth study for ETL, the key technology of data warehouse.
     This system based on Microsoft's .NET platform, Provide a whole solution for the course of the different data source's extract, transform, load and the metadata's management.
引文
[1]喻小光.数据仓库的数据析取技术研究与实现:[硕士学位论文].华侨大学,2002.
    [2]Russ Basiura等著,康埔译.ASP.NET Web服务高级编程[M].清华大学出版社,2002.
    [3]邓超,张鹏.编程宝典-ASP.NET/XML深入编程技术[M].北京希望电子出版社,2002.
    [4]Rahmel,.NET Framework programmer's Reference[M].McGraw Hill Book Company,2002.
    [5]Rob Caron,Develop a Web Service UP and Running with the Soap Toolkit for Visual studio,The Microsoft Journal for DeveloPers.2003.
    [6]史金红,吴永明.数据仓库中元数据的管理.电子工程师,2000,24(2):9-12.
    [7]钱大君,吴健平,余柏蒗,张冲,基于元数据和web service的分布式异构数据共享平台的体系与实现.中国科技论文在线:http://www.paper.edu.cn.
    [8]湖泽军,李华,吴中福.基于web services的数据采集,重庆大学学报,2004,18(5):34-37.
    [9]周茂伟,邓苏,黄宏斌.基于元数据的ETL工具设计与实现.科学技术与工程,2006,23(21):3503-3506.
    [10]徐斌.web service在构建连锁企业数据仓库系统中的应用.中国科技论文在线:http://www.paper.edu.cn.
    [11]雷乔.数据仓库ETL研究及实现:[硕士学位论文].东北大学,2006.
    [12]陈弦,陈松乔,基于数据仓库的通用ETL工具的设计与实现.计算机应用研究,2004,22(8):2-4.
    [13]常新功,肖玉巍,金红.数据仓库的ETL策略.山西财经大学学报,2002,24(24):2-3.
    [14]W.H.Inmon,王志海译.数据仓库(第2版)[M].北京:机械工业出版社,2000.
    [15]P.Vassiliadis,C.Quix,Y.Vassiliou et al.Data Warehouse Process Management.Information Systems,2001,26(3):205-236.
    [16]P.Vassiliadis,Z.Vagena,S.Skiadopoulos et al.ARKTOS:Towards the modeling,design,control and execution of ETL processes.Information Systems,2001,26(8):537-561.
    [17]夏晖.基于web services的数据仓库系统的应用研究:[硕士学位论文].北京科技大学,2006.
    [18]钟巧华.数据仓库的数据抽取技术研究.计算机工程,2004(30):62-63.
    [19]关文革,武强,安海忠等.基于Web的分布式数据仓库体系结构的研究.计算机应用研究,2004,29(6):64-66.
    [20]赵双瑞.通用ETL工具的研究与开发:[硕士学位论文].西安理工大学,2007.
    [21]W.H.Inmon.Building the Data warehouse.America:John Wiley & Sons,2002,22(5):25-28.
    [22]Orli R J.Data Extraction,Transformation and Migration Tools[EB/OL].http://www.kismeta.com/ex2.html,1996.
    [23]吴军勇,郭福亮.数据仓库建设中的数据转换技术研究.计算机与数字工程,2004,32(6):89-91.
    [24]连仁包.通用ETL技术的研究与实现:[硕士学位论文].福州大学,2004.
    [25]程跟上,郑洪源,丁秋林.一种标准的ETL的设计思想及其实现.计算机应用研究,2005,(10):101-103.
    [26]周宏广,周继承,彭银桥等.数据ETL工具通用框架设计.计算机应用,2003,23(12):96-98.
    [27]W.H.Inmon.Metadata in the Data Warehouse[EB/OL].http://www.billinmon.com,2000.
    [28]Alkis simitsis,Panos Vassiliadis,Timos sellis.Optimizing ETL Processes in Data Warehouse.Japan:Proceedings of 21st International Conference on Data Engineering(ICDE),2005:564-575.
    [29]武剑.数据集成平台中ETL的研究与设计:[硕士学位论文].华北电力大学,2007.
    [30]周志逢,徐先传.数据仓库中数据抽取、转换及加载工具研究.北京理工大学学报,2003,23(6):720-723.
    [31]朱众.浅论数据抽取、净化和转换工具.计算机应用,2000,20(4):1-3.
    [32]吴永英.数据仓库中抽取转换加载系统的设计和实现:[硕士学位论文].华中科技大学,2003.
    [33]薛冬梅.化工企业异构数据库数据集成及数据仓库的创建:[硕士学位论文].北京化工大学,2004.
    [34]刘哲.ETL过程中的数据清洗技术研究与应用:[硕士学位论文].沈阳航空工业学院,2007.
    [35]陈晓明.基于XML Web Services信息管理系统研究:[硕士学位论文].厦门大学,2006.
    [36]L.Seligman,A.Rosenthal and P.Lehner et al.Data Integration:Where Does the Time Go? IEEE Data Engineering Bulletin,2002,25(3):3-10.
    [37]Susan B.Davidson,Anthony S.Kosky.Specifying Database Transformation in WOL.IEEE Data Engineering Bulletin,1999,22(1):25-30.
    [38]Kimball Ralph,Caserta Joe,The Data Warehouse ETL Toolkit:Practical,Techniques for Extracting,Cleaning,Conforming,and Delivering Data,Wiley,2004.
    [39]W.H.Inmon,Building the Data Warehouse.Wiley & Sons,New York,1993.
    [40]MarkHwang,Robert Woerner,Next Generation Data Warehousing,DM,1998.