用户名: 密码: 验证码:
地学数据挖掘数据库引擎及其相关技术研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
地学数据(Geo-Spatial Data),或称为地学空间数据、地球空间数据,就是指表达着深刻地质内涵的与空间位置信息有关的定量测量数据、定性描述及图形图像数据。数据处理目的就是要利用一切可行的方法来获取数据中所蕴涵的信息,并以某种可以理解的数据形式表现出来,称之为信息提取。而地学数据处理或地学信息提取(Geo-Information Extraction)是研究怎样管理和处理多来源多数据格式的地学数据,并为地学数据分析及地学研究提供数据支持,在矿产资源研究工作中,可以提供评价或发现所期望的目标(即地质体或成矿远景区)的定量评价信息。随着数据量的不断增大,以数据的统计分析和知识归纳演绎为主的信息提取技术在各个领域取得了快速的发展,研究者们除了使用数据统计分析外,还采用相似类比推理、地质异常控矿理论(赵鹏大)以及地质条件组合控矿理论等进行地学信息提取。
     数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,简称KDD),其目的就是从大量的、不完全的、有噪音的、模糊的数据中提取出隐含在其中的人们事先不知道的但是潜在有用的可信、新颖并能被人理解的信息和知识,它是一种高级的数据处理过程。在地质数学特征研究中,随着地学数据资料不断增加,利用数学方法来定量化处理地学数据的手段虽然在进行地学规律的研究上起了很大的作用,然而它对大量不同比例、不同精度的新数据的出现却不能及时地进行模式发现和模型计算,因此对地学数据的处理提出了新的要求,希望从大量的多源地学数据中发现地质规律,计算出特定地区的定量地学模型,为地质研究建立新的模式。为了充分利用数据带来的信息,地质学专家提出了地学数据仓库建设、多源地学数据集成等技术手段来为该过程提供数据基础,同时也引出了从数据库/数据仓库中获取数据的研究,并使用数据驱动的主动特征来满足在数据变化时,对模型参数的重新计算问题,让数据挖掘的模式提取过程变成自动智能地激活,通过数据挖掘中的各种算法的计算可对地质问题进行数字化信息挖掘处理,为地学数据的管理和处理提供技术上的支持,并形成地学决策支持系统,为地学问题的客观智能地处理奠定基础。它的分析方法和应用结果,也将为全球变化、区域可持续发展和自然资源的有效评价提供决策支持。本文在这样的研究思路指导下主要完成了对数据挖掘数据库引擎的设计与实现工作,其内容包括如下:
     1、对数据挖掘数据库引擎进行了设计
     系统地分析与设计了一个地学数据挖掘的数据驱动引擎,该设计是一个以数据驱动为核心的三层软件结构系统,即数据层、数据操作层以及数据处理层,各层分别用来完成特定的逻辑功能,并把所有的功能特点在操作层的数据工作平台中体现出来。
     2、对基于大型数据库访问的数据获取、查询技术进行了研究。
     由于数据挖掘数据库引擎的研究定位于地学数据的处理,因此数据的获取与访问是该研究的首要任务。为了适合后续的开发,在设计中主要研究了对于Oracle和SQL Server
    
    的数据访问研究。数据访问技术选取了目前微软最近推出的统一数据获取技术(UDA),该技术解决了对所有数据源的数据访问问题,而且还可以对任何用户自定义编写的数据源OLE DB数据提供者,使得数据消费者(客户端程序)可以通过UDA对该数据提供者进行数据的访问,这样就完全解决了多种数据源数据的访问与获取问题。在数据的查询获取上,使用了基于OLE DB的高级接口ADO来解析SQL语句,使得数据的查询与获取变的非常灵活实用。
     3、基于外部扩展存储过程的数据驱动机制的研究。
     扩展存储过程是指在数据库系统中的可以调用的一种Win32动态库函数,它为数据驱动的实现提供了一个良好的数据接口功能。而作为一种特殊存储过程的数据库触发器为数据的变化提供了良好的操作事件触发功能。论文根据数据库的这两种特点,把数据的变化写入到文件中,并由客户挖掘程序进行监视,形成了数据库操作事件→触发器→扩张存储过程→文件读写→挖掘程序模块 驱动的一系列执行机制。
     4、对基于OpenGL的数据可视化进行了研究。
     数据可视化为数据的展现提供了一个完整直观的图形视图,论文通过对 OpenGL图形操作库进行了程序开发,并把典型的Surfer Grid文本及二进制数据进行了读取显示。该模块的研究可以对数据进行图形化的操作,为系统提供了良好的图形显示功能。
    5、对数据驱动记录文件进行了设计工作
    在数据驱动过程中,使用了*.ini型文件形式进行数据的变化记录,该文件主要是通过设定[section]作为主键,其下的各个key作为数据变化的描述,key所对应的值作为实际数据的变化特征来工作,这样使得数据记录文件的大小不增加,而是通过改变特定section下的特定键值来达到记录的效果,这好似一个简单的数据库表。
     6、在Windows 2000环境下,利用Visual C++开发工具,基于SQL Server 2000数据库系统进行了整个设计的实现工作。
    论文实现了一个名为DAVS 的应用程序。对源文件进行分析,软件工作量如下:DAVS主程序共计219个程序文件,有效的代码行数为60196行,其中包括注释行11045;同时在扩展存储过程动态
Geo-Spatial Data, which expresses fully profound geological meaning, is a kind of data that have great relationship with its spatial location. It includes quantificational survey datum, qualitative descriptive datum and graphic or image datum. Since data processing is to use all of the effective methods to extract the information form original data, and express it in an understandable mode, we can regard this procedure as Information Extraction. Geo-Information Extraction is processing to study how to manage and process the multi-source and multi-format geo-spatial data, and provide a basic service support. In the geological mine resource work, it also can provide quantificational assessment information for the anticipant geological body's evaluation and finding. With the increase of the data volume, the researchers adopt analogism, geological abnormal theory (Zhao Pengda) and geological conditional combination mineralization theory to extract geological information other than data statistic analysis.
    Data Mining, which is also called Knowledge Discovery in Database (short for KDD), dedicate to extracting the information or the knowledge which is useful, believable, novel and could be understand by people from the abundant, incomplete, noisy and fuzzy data. It is an advanced data processing procedure.
    In the study of geological mathematical characteristics, with the increase of geological material, although it have taken an important role in the research of geological mathematical rule, the means of using mathematical method to analyze geo-spatial data can not be fit for extracting patterns or calculating models facing to mass datum, which vary in scale and precision, and is obtained in time., new requirement in geo-spatial processing is put forward, and researchers hope to discovery more geological law from a great amount of multi-resource geo-spatial data, calculate the model and provide a new pattern for the geology research. In order to use the information adequately from the data, geological researchers bring out the technologies of construction of geo-data warehouse and integration of multi-source forward to provide a database for data processing. At the same time, it brings out the research of accessing database or data warehouse, and using the data driven mechanism to realize the active function, which makes the data mining procedure intelligent, and provides a technique support for the geo-spatial data processing and management, then forms a geo-data Decision Support System to support impersonality and intellective geo-spatial data processing. The techniques of data mining will help people to analyze global changing, regional continual development and natural resource assessment. Under the guidance of analysis above, this dissertation has finished the design of data mining engine and implemented a DAVS software. The main work is showed as follows:
    
    1. Design of database engine for data mining;
    Author analyzed and designed a database engine for data mining systematically. This software design is a three-tier soft system using data-driven characteristic as its core. The logical
    
    three tiers are data tier, data manipulate tier and data processing tier. Every tier has its specifically function, and all the functions are put in the data manipulate tier's workaround logically.
    
    2. The research of large database management system accessing and data query;
    Since the database engine for data mining is pitched in the geo-spatial processing, data accessing and obtaining is the most important target in this section. For the sake of fitting with sequential development of this data mining system, the main research in this dissertation is dedicated to access to the Oracle DBMS and SQL Server 2000 DBMS. In the design, the main data access technique is the new UDA (Universal Data Access) techniques provided by Microsoft Co. This technique solves the problem of accessing multi data providers, and can access other user custom OLE data provider. Thus in the DAVS, as a data consumer, it also can access
引文
[1] 周荫清主编.信息理论基础(M).北京:北京航空航天大学出版社,1993
    [2] 陈学诠,陈洪亮.数据库原理与工程应用(M).北京:中国科技大学出版社,1996
    [3] 李军,周成虎.地学数据特征分析.地理科学,1999.4,Vol.19,No.2:158~162
    [4] 戴塔根,邱冬生,鲍光淑,姚锐,谢文兵.地学数据模型及数据融合技术.中南工业大学学报,2001.6,Vol.32,No.3:221~223
    [5] 马洪超,胡光道.地学数据融合技术综述.地质科技情报,1999.3,Vol.18 No.1:97~101
    [6] Frederick P. Agterberg,Past and Future of Mathematical Geology, Proceedings of the International Mathematical Geology 2002 WUHAN, P.R.China, 1~10
    [7] 胡光道.区域地球化学数学模型研究.地质勘探中的统计分析(M).武汉:中国地质大学出版社.1990, 2:123~134
    [8] 孙斌.信息提取概述(上).术语标准化与信息技术,2002.03,28~32
    [9] 鲍光淑,姚锐,戴塔根,谢文兵.地学信息系统在矿产预测中的应用.中南工业大学学报,2002.10,Vol.33,No.5,445~448
    [10] 成秋明.多维分形理论和地球化学元素分布规律,地球科学,2000.4,311~318
    [11] 胡光道,陈建国.金属矿产资源评价分析系统设计,地质科技情报,1998.3,45~49
    [12] 刘宴淼,余金生,李纯杰.基于图像处理技术的矿产预测综合分析系统,物探化探计算机技术,1994.2,Vol.16 No.1,23~28
    [13] 王钦军,薛林福.数据挖掘技术及其在地学中的应用.世界地质,2000.9,Vol.19 No.3: 235~239
    [14] 邸凯昌著,空间数据发掘与知识发现(M),武汉:武汉大学出版社,2001.12
    [15] NIZhi-wei1,JIA Rui-yu,Expert System Based on Data Mining and Neural Networks,Journal of Systems Science and Systems Engineering,2001,Vol.10, No.3, 323~327
    [16] Jiawei Han,Micheline Kamber著,范明,孟小峰等译,数据挖掘概念与技术(M),机械工业出版社,2001.8
    [17] 史忠植著.知识发现(M).北京:清华大学出版社,2002.1
    [18] http://seekjob.myrice.com/dm-7.htm
    [19] 刘同明等编著.数据挖掘技术及其应用.北京:国防科技出版社,2001.9
    [20] 张健挺,万庆.地理信息系统集成平台框架结构研究.遥感学报,1999.1,Vol.3,No.1
    [21] 曹瑜,胡光道.地理信息系统在国内外应用现状.计算机与现代化,1999.3,Vol.61,No.3
    [22] 李振华,刘修国.GIS访问网络数据库中若干技术问题的探讨,地球科学,1998.7,
    
    Vol. 23.4
    [23] (美)Claude Seidman著 刘艺 王鲁军 蒋丹丹等译,SQL Server 2000数据挖掘技术指南(M),机械工业出版社,2002.1
    [24] 董振雨,闫静.基于空间数据库共享平台的数字城市方案.3S世界,2003.4:1~3
    [25] ADAM N R, Gangopadhyay A. Database Issues in Geographic Information systems[M].Kluwer Academic Publishers, 1997.
    [26] 宋关福,钟耳顺,程新荣,王尔琪,滕寿威.多源空间数据无缝集成(SIMS)技术研究.99'中国GIS年会论文集,深圳,1999.8
    [27] 胡光道.地质数据仓库设计中的几个问题.地球科学——中国地质大学学报,1999.9,Vol.24 No.5:522~524
    [28] 向运川,任天祥,杨竹溪.开发利用地理信息系统(GIS)综合分析地学信息进行矿产预测.物探与化探,1996.2,VOl.20 No.1:1~13
    [29] 余生晨,叶水盛,刘光胜,王世称.利用地理信息系统(GIS)进行综合信息矿产资源预测.世界地质,1996.9,VOL.15 No.3:91~96
    [30] 张振飞,高凤亮,马智民,姬金生.基于GIS的单元簇遗传建模及其在区域矿产预测中的应用.西安工程学院学报,2001.9,Vol.23 No.3:15~19
    [31] 邱玉宝,胡光道.基于自适应神经网络的岩性识别动态建模.计算机与现代化,2003.2 第5期:15~17
    [32] 李振华,胡光道,陈建国.地质数据仓库的特点及其数据组织.地球科学-中国地质大学学报,1999.9,Vol.24 No.5:536~538
    [33] 赵鹏大,胡旺亮,李紫金.矿床统计预测(第二版).北京:地质出版社,1994.5
    [34] ORACLE SPATIAL,铁路计算机应用,2002年03期
    [35] 黄晓涛.数据库触发器实现数据库系统的主动功能,计算机应用研究,1999.9,47~49
    [36] 刘云生,胡国玲,舒良才.一个实时主动数据库的触发器机制.计算机研究与发展,1997.1,Vol.34.No.1:33~37
    [37] 李昭文,尤定华.主动数据库及其应用的研究.北京理工大学学报,1995.2,Vol.15.No.1:112~116
    [38] 徐晖,陈珉,张晓昀.基于组件的主动数据库模型研究.计算机工程与科学,2001.6,Vol.23,56~59
    [39] 翟群,胡安琳,编译.数据驱动的决策支持系统概念及内涵.运筹与管理,1999.9,Vol.8,No.3:121~126
    [40] 石美红,张晓滨.基于数据驱动的DBMS应用研究.西北纺织工学院学报,2001.12,Vol.15,No.4:83~85
    [41] 李香敏主编,徐进姜世锋等编著.SQL Server 2000 Programmer's Guide 编程员指南(M).北京:希望电子出版社,2000
    [42] Microsoft Corporation,SQL Server 2000联机丛书,1999~2000
    [45] http://msdn.microsoft.com/nhp/default.asp?contentid=28000409
    [46] [美]Michael Otey, Paul Conte著,陈恩义,吴强,刘鸿波译.熊桂喜审校.SQL Server
    
    2000开发指南(M).北京:清华大学出版社
    [47] 万波,周顺平.SQL Server扩展存储过程实现机制及应用方法初探.武汉科技大学学报(自然科学版),2001.9,Vol.24,No.3:294~297
    [48] 张梅,陈文博.服务器端瞬时数据的捕获与发布.计算机应用,2000.1,Vol.20,No.1:27~30
    [49] 范春晓,于中强,孙宝文,边晓春.在Windows NT 上实现远程进程间同步的一种方法——命名管道.北方工业大学学报,1998.3,Vol.10,No.1
    [50] 刘刀桂,孟繁晶.Visual C++实践与提高——数据库篇(M).北京:中国铁道出版社,2001.6
    [51]潘爱民. 一致的数据访问技术——ADO/OLE DB, http://www.csdn.net/develop/author
    /pam/book8_1.shtm
    [52] 王元珍,李海波.基于OLE DB的数据抽取、转换和装入工具的设计与实现.小型微型计算机系统,2002.4,Vol.23. No.4:453~455
    [53] 周顺平,叶亚琴.MAPGIS OLE DB提供者的设计与实现.地球科学——中国地质大学学报,20002.5,Vol.27,No.3:256~258
    [54] 聂明,吴京,陈荦,陈宏盛.用VC6.0开发OLE DB Provider的技术,微型电脑应用,1999年第15卷第12期,46~49
    [55] David Utz,Creating an OLE DB Data Provider,http://www.codeproject.net/
    [56] http://www.oradb.net/
    [57] 江早,王洪成,OpenGL VC/VB图形编程(M),科学出版社,北京,2001.2
    [58] 廖朵朵,张华军著.OpenGL三维图形程序设计(M),北京:星球地图出版社
    [59] 查峰.用VC中ADO技术构建通用异种数据源综合查询平台.微型电脑应用,2002.5,Vol.18:44~48

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700