构建数据仓库的ETL系统研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
数据仓库系统整合了企业的信息系统资源,在企业的经营决策中起着越来越重要的作用。如何使得数据高效、低成本地从多种数据源中经过复杂的处理和计算而集成到数据仓库中,成为数据仓库构建中急需解决的问题。ETL系统作为数据源与数据仓库之间的桥梁和纽带,专用于事务型数据到数据仓库数据的处理过程,直接影响数据仓库的建设和运行,因此对于ETL系统的研究和开发成为数据仓库建设必须考虑的重要环节。目前国内的ETL系统基本由国外的专业数据库厂商或数据集成厂商所垄断,使得ETL系统的采购和使用费用昂贵,中小企业用户对于数据仓库使用的需求受到了ETL系统成本的限制。设计并开发适合国内中小企业的ETL系统,以支持企业的数据仓库构建和使用,深化企业的信息系统建设,提升企业的经营管理水平成为国内信息系统发展的方向之一。
     本文结合构建数据仓库的应用背景,针对信息系统的特性,首先比较研究了传统的ETL系统的特点,提出传统ETL系统在企业信息化建设中的不足之处。主要不足表现在:对于异构性数据源的支持不够充分,ETL系统易使用性不够完善,对用户自身能力要求较高。针对传统ETL系统存在的不足,本文提出了针对性的解决方案:将异构性数据源提炼成为网络中的数据节点,通过数据节点的共性取代数据源异构性,数据库系统对于ETL系统来说都是“即插即用”型的数据资源。数据库系统之间数据类型和系统结构之间的差异则通过数据本身的特点来淡化。将数据资源分为静态数据和动态数据两种类型,通过研究两种数据类型在企业经营过程中产生的方式,以及与数据仓库数据进行点对点的比较,提出了基于数据本身特点的数据获取方式。其次研究分析了数据转换和数据加载过程常见的问题,并提出了解决方案。本文除了对于ETL系统理论上的研究,还将改进方案融入到实践中,设计并实现了性价比较高,不与特定的解决方案集成的通用型ETL系统。最后通过企业应用案例分析,证明了ETL系统确实能够帮助企业提高运营效率,降低运营成本,是企业信息化建设中有力的支持。
ETL (Extract Transform and Load) dedicates to the treatment process from source data to data warehouse data, like the brige and link between the data sources and dataware house, it directly impact on the data ware house building and running. So if we want to enhance the data warehouse application, we must think much of ETL. At present, ETL tools in China are monopolized by foreign professional database manufacturer or data integration manufacturer. The circs makes the purchase and use cost expensively and limited the data warehouse use requirement of SMEs. So, it will be the one of development directions that design and develop the ETL system to fit the SMEs, support the enterprise building and using data warehouse, deep the enterprise information construction and enhance the enterprise management level. The purpose of this paper is to design and develop a lower cost, higher efficiency generic ETL system, explore the technology to implement the ETL tool. I hope the paper can help SMEs to build data warehouse and OLAP system and then do the deeper information construction.
     In this paper, I will follow the software engineering principle designing and developing the ETL system. Based on study the exsiting ETL system, I design and develop an ETL system which is developed easy and highly efficient execution. The main research work and results are: analyse the SMEs requirement for ETL tools deep. By understanding and confirming the users' requirement, divide the ETL system into three business process:data extract, data transform and data load; Using configurable files define and display the business logic; provide the simple interface for helping users understanding and using the ETL system. Use the connection pool and JDBC technology at the data extract and data load process to enhance the database connection stability and security; implement to support the heterogeneous and cross-platform database. At the data transform process, use the combined configurable file to explain the data transform flow, make the data transform process highly flexibility and easier design and modify. Use the ETL system to test, prove that:The program is indeed feasible, the development process is simple and easy to control and the development cost is low. The ETL system is successfully applied in the real environment of multiple users, and obtains the users'praise. It is proved that the ETL system design and development are effective.
引文
[1]徐春艳.面向实时数据仓库的ETL研究[D].南京:南京理工南京航天航空大学.2007:1-3
    [2]吴飞,邢桂芬,邢玉萍.基于本体的ETL设计研究[J].计算机工程与设计2007(4):1517-1519
    [3]VASSIL IAD IS P, SIM ITSIS A, SKIADOPOULOS S. Modeling ETL activities as graphs[R]. Procof 4th International Workshop on the Design and Management of Data Warehouses. Toronto, Canada:IEEE,2002:52261
    [4]吴悦.ETL工具点评[J].中国计算机报.2003(5):12-14
    [5]邱云飞,邵良杉.利用DTS组件实现数据仓库中ETL方案设计[J].计算机系统应用.2007(4):92-96
    [6]吴远红.ETL执行过程的优化研究[J].计算机科学.2007(34):81-83
    [7]郑洪源,周良.基于CWM的标准ETL的设计与实现[J].吉林大学学报(信息科学版).2006(1):50-55
    [8]王丽珍,周丽华,陈红梅,鹍邹力.数据仓库与数据挖掘原理及应用[M].科学出版社.2005(5)12-16
    [9]毛彧.银行数据仓库系统中ETL的总体设计与实现[J].信息与电子工程.2007(8):292-295
    [10]张旭峰,孙未未等.增量ETL过程自动化产生方法的研究[J].计算机研究与发展.2006(43):1097-1103
    [11]D. Georgakopoulos, M. Hornick and A. Sheth. An overview of Workflow Management: From Process Modeling to Workflow Automatation Infrastracture[M]. Distributed and Parallel Databases.1995(3):82-85
    [12]钟亚强.利用软件工程的方法开发新车保险信息系统[D].成都:四川大学.2005
    [13]杨文嘉.基于JDBC的Web数据应用程序性能优化研究[J].计算机与信息技术.2007(5):50-52
    [14]张旭峰,孙未未等.增量ETL,过程自动化产生方法的研究[J].计算机研究与发展.2006(6):1097-1103
    [15]顾艳红,杨志浩.Cognos及其在电信计费领域中的应用.计算机应用.2004(24):113-114
    [16]S Zainudin, A R Hamdan. A Proposed Design for a Workflow Engine [C]. Proc of IEEE Region 10 Int'1 Conf on Electrical and Electronic Technology.2001(1):73-77
    [17]WilliamH. Inmon. Building the Data warehouse [M].QED Technical Publishing Group.1992
    [18]罗小称.基于元数据的ETL工具设计和实现[D].上海:华东师范大学.2007:21
    [19]赵双瑞.通用ETL工具的研究与开发[D].西安:西安理工大学.2007:6-7
    [20]柯光领.基于代码生成的组件化通用ETL工具[D].广州:暨南大学.2007:7-9
    [22]张毅.商务智能系统中ETL的设计与思考[J].数据库及信息管理.2007:1197-1199
    [23]龙青云,胡巧多.商务智能的架构体系和技术工具[J].人工智能及识别技术.2007:1665-1666
    [24]高彬,谷建华,符宁,张海辉.基于ESB的实时ETL系统的设计与实现.计算机应用.2008(4):860-862
    [25]Thomsen. Christian. ETL Diff:A semi-automatic framework for geression test of ETL software[R].Dawak:Data warehouseing and Knowledge Discovery,2006:1-12.
    [26]吴远红,徐宏炳.基于状态空间搜索的ETL执行优化[J].计算机工程与设计.2007(10):2262-2265
    [27]汪传雷,刘兰凤,孙元杰.一种面向决策的企业商务智能系统研究[J].计算机技术与发展.2007(8):8-10
    [28]Sellis. Timos k. ETL workflows:Fraom formal specification to optimization[R]. ADBIS:Advance in Database and Information System,2007:1-11
    [29]Vassiliadis. Panos. ARKTOS:Towards the modeling, design, control and execution of ETL processes. Information System.2001(8):537-561
    [30]张锐,姜晓峰.数据仓库建设中ETL的架构设计与实现[J].苏州科技学院学报(工程技术版).2007(1):77-81
    [31]Pensa. Ruggero G. A Bi-clustering framework for categorical data[C]. Lecture Notes in Computer Science.2005:643-650
    [32]陈奉洲.基于价值管理的商务智能系统需求分析[D].南京:东南大学.2006(3):24-32
    [33]Ranjan. Jayanthi. Traditional Business Intelligence vis-a-vis real-time Business Intelligence [J]. Internation Journal of Information and Communication Technology.2008(3):298-317
    [34]许力,马瑞新.基于SOA的实时ETL的研究和实现[J].计算机系统应用.2007(4):24-27
    [35]张勇,杨坤锦,王文杰.移动经营分析系统中ETL的分析和设计[J].计算机工程与应用.2006(3):202-204
    [36]王磊,李一凡,赵怀慈.银联数据仓库系统中ETL的设计与实现[J].微电子学与计算机.2007(5):66-68
    [37]Simitsis. Alkis. State-space optimizing of ETL workflows [J]. IEEE Transaction on Knowledge and Data Engineering.2005(10):1404-1419
    [38]陈立群,王忠义,夏立新.基于主题图的数据仓库模型[J].情报科学.2008(11):34-38
    [39]屈志毅,张延堂,王戈.一种金融系统专用ETL工具的研究与实现[J].计算机工程.2008(20):42-47
    [40]孟宪明,王正方,牛奔.基于DirectShow的ETL工具的设计[J].微计算机信息.2008(30):78-82
    [41]Panian. Zeljko. Using radio frequency identification data to generate real-time business intelligence [J].WSEAS Transacations System.2006(3):518-525
    [42]Vassiliadis. Panos. Conceptual modeling for ETL process [J]. ACM International Workshop on Data Warehousing and OLAP.2002:14-21
    [43]Igbal.Tassawar. XML based framework for ETL process for relational databases[J]. WSEAS Transations on Information Science and Applications. 2006(7):1402-1406
    [44]周瑾.我国商务智能研究[J].现代管理学.2007(4):44-45
    [45]朱晓武.商务智能的理论和应用研究综述[J].计算机系统应用.2007(1):114-117
    [46]杨小平.商务智能系统在制造业的应用研究[D].上海:上海交通大学.2007:56-58
    [47]宋亚莉.B/S模式下的商务智能系统架构及实现技术[D].重庆:重庆大学.2002:60-62
    [48]刘如九,张振山,柴天佑.一种通用的多数据库间数据抽取方法及应用[J].北京交通大学学报.2008(04):178-181
    [49]Darwish. Ali. Analysis of three-dimensional embedded transmission lines(ETL's)[J].IEEE Microwave and Guided Wave letter.1999(11):477-449
    [50]Azvine. Ben. Cui Zhan. Towards real-time business intelligence[J]. BT Technology Journal.2005(3):214-225
    [51]Simitsis. Alkis, Vassiliadis. Panos. A method for the mapping of conceptual designs to logic blueprints for ETL processes [J]. Decision Support System.2008(1):22-40
    [52]王兆红.零售业商务智能系统架构[J].中国管理信息化(综合版).2007(8):242-246
    [53]Bentayeb. Fadila. A user-driven data warehouse evolution approach for concurrent personalized analysis needs [J]. Integrated Computer-Aided Engineering.2008(1):21-36
    [54]赵宏霞,杨皎平.ERP与商务智能的继承[J].管理观察.2008(15):122-124
    [55]赵永彬,丛培贤.信息资源整合平台的设计与实现[J].电力信息化.2007(10):162-166
    [56]文笃石.ETL在电信关怀项目中的应用[J].西安邮电学院学报.2008(5):206-208
    [57]黄梯云.管理信息系统[M].北京:经济科学出版社,2000:1-6

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700