用户名: 密码: 验证码:
基于云计算的大规模地形数据处理方法的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
地形已经成为了一种基本的重要的地理要素,自从上世纪70年代以来,数字地形数据呈现出了高精度、大范围的趋势。因此,研究支持大数据量的地形数据计算能力成为解决地形数据分析瓶颈的关键问题。尽管国内外众多专家学者已经做了大量的研究工作并产生了许多优秀的成果,但是目前还没有形成公认完美的解决方案。本文通过对大规模地形数据处理技术中所涉及的云计算技术、影像金字塔的并行组建、大规模的地形数据云存储及调度策略等的研究,探讨通过在云计算环境中完成对大规模地形数据高效组织和调度的方法,最终通过实现一个Hadoop云环境下的数字地球实验系统来验证理论的可行性。本文主要研究内容包括:
     1.针对大规模地形数据的特点,研究有利于在云计算环境下大规模地形数据的组织结构和存储方法,建立高效的数据组织模型以及相应的索引、调度机制,实现对全球尺度的地形数据进行高效的管理。
     2.综合探讨金字塔模型的并行组建问题,结合多种技术给出一个高效可行的并行组建方案并测试性能。
     3.在充分分析研究现有云环境下的作业调度算法的基础上,针对现有算法的不足,提出一种改进型的作业调度算法,并进行测试和分析。
     4.应用上述研究的成果,使用Hadoop云技术设计并初步建立一个云环境下的数字地球实验平台,实现云计算环境下实时交互漫游并测试性能。
     依据以上研究内容,本文有针对性地做了如下贡献:一是提出一种在云环境下的大规模地形数据的组织机制-云金字塔模型;二是提出了一种改进型的作业调度算法;三是设计并实现了一种在云计算模式下的数字地球实验系统。
The terrain has become a basic geographic features, since the1970s, digital terrain datashowing a high-precision, large-scale trend. Therefore, the study terrain data to support thelarge amount of data computing power become key issues to solve the bottleneck of the terraindata analysis. Although many experts and scholars at home and abroad have done a lot ofresearch work and a lot of good results, but there is no form recognized the perfect solution. Inthis paper, the parallel formation of massive terrain data processing technology involved in thecloud computing technology, image pyramid, large-scale topographic data cloud storage andscheduling policy research to explore through the completion of large-scale terrain data in thecloud computing environment efficient organization and scheduling, and ultimately throughthe realization of the the digital Earth experimental system in a Hadoop cloud environment toverify the feasibility of the theory. The main contents include:
     1. The characteristics of large-scale topographic data, research is conducive to large-scalestructure of the terrain data and storage in the cloud computing environment, the establishmentof efficient data organization model and the corresponding index, scheduling mechanism toachieve global scale topographic data efficient management.
     2. Comprehensive explore the pyramid model of parallel formation of the problem, combinedwith a variety of techniques to give an efficient parallel build programs and test performance.Existing cloud environment job scheduling algorithm based on the full analysis of the study,the lack of existing algorithms, put forward an improved job scheduling algorithms and fortesting and analysis.
     3. The application of the results of the above study, the use of the Hadoop cloud technologydesign and the initial establishment of the Digital Earth in a cloud environment experimentalplatform to achieve real-time interactive roaming in the cloud computing environment and testperformance.
     4. Based on the above research, I targeted the contribution as follows: First, I propose alarge-scale terrain data in a cloud environment organizational mechanisms-cloud model ofthe pyramid; proposed an improved job scheduling algorithm; the third is to design andimplement a digital Earth under the cloud computing model experimental system.
引文
Amedro B, Baude F, Huet F et al.. Combining Grid and Cloud Resources by Use of Middlewarefor SPMD Applications[C]. CLOUDCOM '10. Washington, DC, USA: IEEE Computer Society,2010:
    Ariel Cary, Zhengguo Sun, Vagelis Hristidis, Naphtali Rishe. Experiences on
    Armbrust M, Fox A, Griffith R et al.. A view of cloud computingf J]. Commun. ACM,2010,53:50-58.
    Bharambe A R, Agrawal M, Seshan S. Mercury: supporting scalable multi-attribute rangequeries[C]. SIGCOMM '04. New York, NY, USA: ACM,2004;353-366.
    Brock M, Goscinski A. Publishing Dynamic State Changes of Resources through State AwareWSDL[C]. ICWS '08. Washington, DC, USA: IEEE Computer Society,2008:449-456.
    Bucur A. Performance analysis of processor co-allocation in multicluster systerns[D].Ph.D.,University of Technology,2004.
    Buyya R, Abramson D, Giddy J etal.. Economic models for resource management andscheduling in Grid computing[C]: Wiley Press,2002:1507-1542.
    Chen J Y,Bouman C A,Dalton J C.Hierarchical brow-sing and search of large imagedatabases[J].IEEE Transactionson Image Proceeding,2000,9(3):442-455.
    Chen Jianping, Zhao Jie, Lv Peng, Hu Qing Tian Yi.Research on3-D GeologicalModelingand3-D Volume Quantificational Prediction——A case study in YunnanProvince China.MinePlanning and Equipment Selection (MPES)2007, p791-805.
    Chris Bunch,Navraj Chohan etc., Key-Value Datastores Comparison in AppScale,UCSB TechReport,2010
    Christopher Frost,Mike Mammerella,Eddie Kohler,etc.Generalized File SystemDependencies Proc.SOSP’07,2007.
    ChuekLam.HadooPinAction.ManningPublieations,2010.
    Clark C,Fraser K,Hand S,et a1.Live Migration of Virtual Machines[C]//Proceedings ofthe2nd lnt’l Conference on Networked Systems Design&Implementation. Berkeley,CA.USA:[s.n.],2005.
    Computation Proc.15thInternational Conference on Parallel Architectures andCompilation Tech niques,2006,PP.l.
    Craglia M,Goodchild M F,Annoni A,et al.Next generation digital earth:a position paperfrom the Vespucci initiative for the advancement of deographic informationscience[J].International Journal of Spatial Data Infrastructures Research,2008,3:146-167
    Dutton G. Universal Geospatial Data Exchange via Global HierarchicalCoordinates[C]MProceedings of International Conference on Discrete Global Grids.SantaBarbara:[s.n.],2000.
    Edmund B,Nightingale E.B,Chen P.M,et al.Speculative execution in a distributefilesystem[C].Proceedings of the twentieth ACM symposium on Operating systemsprinciples,2005:191-205.
    Fay Chang, Jeffrey Dean,Sanjay Ghemawat, Wilson C.Hsieh, Deborah A.Wallach MikeBurrows, Tushar Chandra, Andrew Fikes, Robert E.Gruber, Bigtable:A Distributed StorageSystem for Structured Data,OSDI,2006
    Giuseppe DeCandia, Deniz Hastorun,etc.Dynamo:Amazon’sHighly Available Key-valueStore, SOSP,2007
    Giuseppe DeCandia,Deniz Hastorun,etc.,Dynamo:Amazon’s Highly Available Key-valueStore, SOSP,2007
    HDFS,http://hadoop.apache.org/common/docs/r0.20.2/hdfs_user_guide.html[2010.6.10]
    http://en.wikipedia.org/wiki/Crontab.
    http://hadoop.apache.org/
    http://hadoop.apache.org/hdfs/docs/current/hdfs_design.html
    http://Hadoop.apache.org/hdfs/does/current/hfses_design.html.
    http://hbase.apaehe.org/.
    http://lucene.apache.org/
    http://nutch.apache.org/
    http://www.intel.cn/content/www/cn/zh/big-data/intel-s-hadoop-white-paper.html.2012
    https://cwiki.apache.org/eonfluenee/display/MAHOUT/Quickstart.
    Huedo E, Moreno-Vozmediano R, Montero R S et al.. Architectures for Enhancing GridInfrastructures with Cloud ComputingfM]: Springer London,2011:55-69.
    Jeffrey Dean Experiences with MapReduce,an abstraction for large-seale
    Jeffrey Dean,Sanjay Ghemawat Distributed Programming with MapReduee Beautiful Code,2007,Chapter23.
    Jeffrey Dean,Sanjay Ghemawat. MapReduce:simplified data Proeessing on largeclusters[J].Collllnunieation of the ACM-50thAnniversary,2008,51(l):107-113.
    JunPingZhang,HuaHuang,JueWang.Manifold Learning for Visualizing and AnalyzingHigh-Dimensional Data.IEEE Inielligent Systems,2010,25(4):54-61.
    Kolar J.Representation of the geographic terrain surface using globalindexing[A].Proceeding of12th International Conference onGeoinformatics[C].2004(6):321-328.
    Le C M,Delclaux F,Genthon P,et al.Assessment of digital elevation model(DEM)aggregation methods for hydrological modeling:Lake Chadbasin,Affreca[J].Computer&Geosciences,2009,35(8):1661-1670.
    Lee C,Percivall G.Standards-based computing capabilities for distributed geospatialapplications[J].Computer,2008,41(11):50-59
    Matei Zaharia,Andy Konwinski,Anthony D.Joseph.Improving MapReduce Per-formance inHeterogeneous Environments[C].8th usenix symposium on operating systems design andimplementation.Dec.2008.
    Matei Zaharia.Delay Scheduling: A Simple Technique for Achieving Localityand Fairnessin Cluster Scheduling[C]. EuroSys’10, Paris, France. April13–16,2010.
    Michael Isard, Vijayan Prabhakaran, Jon Currey. Quincy: Fair Scheduling forDistributed Computing Clusters[C].SOSP’09, Big Sky, Montana, USA. October11–14,2009.
    Mosharaf Chowdhury, Matei Zaharia, Justin Ma, Michael I. Jordan, Ion Stoica.ManagingData Transfers in Computer Clusters with Orchestra[C]. SIGCOMM’11,Toronto, Ontario, Canada.August15-19,2011.
    Nijmeijer, H. Mareels, I.M.Y. An observer looks at synchronization [J].
    Processing Spatial Data with MapReduce. SSDBM.2009
    Quan Chen Daqiang Zhang Minyi Guo Qianni Deng. SAMR: A Self-adaptive MapReduceScheduling Algorithm In Heterogeneous Environment[C].10th IEEE International Conference onComputer and Information.2010.
    Sangwon Seo et al. HPMR: Prefetching and Pre-shuffling Shared MapReduce ComputationEnvironment[C]. In the Proceedings of11th IEEE International Conference on ClusterComputing, Sep.2009.
    Tom White.Hadoop The Definitive Guide[M].O’Reilly Media,Inc.,1005Gravenstein HighwayNorth,Sebastoppol,CA95472,2009:5-10.
    V A Zquez C, Huedo E, Montero R E N S et al.. On the use of clouds for grid resourceprovisioning[J]. Future Gener. Comput. Syst.,2011,27(5):600-605.
    Wood T.Black-box and Gray-box Strategies for Virtual MachineMigration[C]//Proceedings of the4th Int’l Conference on Networked Systems Design&Implementati on [S1.]:IEEE Press,2007.
    Xiang Longgang,Zhu Xinyan.Organization and schedule of mu11i-resoIution pyramid basedon wave Iet transform[C].17th International Conference on Geo-informatics,2009:1-5
    Xiong K, Suh S. Resource provisioning in SLA-based cluster computing[C]. JSSPP'10.Berlin,Heidelberg: Springer-Verlag,2010:1-15.
    Youseff L, Butrico M, Da Silva D. Toward a unified ontology of cloud computing[C].Grid Computing Environments Workshop,2008. GCE'08,2008:1-10.
    Yu Y, Lai K. A Semi-structured Overlay for Multi-attribute Range Queries in CloudComputing[C]. CSE'10. Washington, DC, USA: IEEE Computer Society,2010:88-95.
    2011中国计算机科学技术发展报告.北京:机械工业出版社.2012
    Tom White. Hadoop权威指南[A].清华大学出版社,2010.
    曹忠升,张杨,李晨阳.一种基于分划思想的Hilbert曲线快速编码算法.计算机工程与科学,2006,28(11):63~65
    陈刚.虚拟地形环境的层次描述与实时渲染技术的研究[D].郑州:信息工程大学测绘学院,2003.
    陈建平,陈勇,王全明.基于GIS的多元信息成矿预测研究-以赤峰地区为例.地学前言,2008,15(4):55-59
    陈建平,吕鹏,吴文,赵洁,胡青.基于三维可视化技术的隐伏矿体预测.地学前缘,2007,14(5):54-62.
    陈建平等.利用航空立体像对确定岩层产状的计算机方法.国土资源遥感,1991.No.4
    陈全,邓倩妮.云计算及其关键技术.计算机应用,2009,29(9):2562-2567.
    陈世荣,马海建,范一大等.基于高分辨率遥感影像的汶川地震道路损毁评估[J].遥感学报,2008,12(6):949-955.
    陈艳金.MapReduce模型在Hadoop平台下实现作业调度算法的研究和改进[D].华南理工大学,2011.
    陈勇.基于Hadoop平台的通信数据分布式查询算法的设计与实现[D].北京交通大学,2009.
    成都物联网产业发展联盟.物联网云计算信息动态.2012.
    程承旗,宋树华.全球空间信息GeoDNA编码模型及应用方法
    程承旗,宋树华.全球空间信息GeoDNA编码模型及应用方法初探[J].北京大学学报(自然科学版)网络版(预印本),2009(1):49-53.
    程承旗,张恩东,万元嵬,宋树华.遥感影像剖分金字塔研宄[J].地理与地理信息科学,2010.1:19-23
    程承旗,张恩东等.遥感影像剖分金字塔研究[J].地理与地理信息科学,2010(1):19-21.
    程苗.云计算技术在web日志挖掘中的应用研究.中国科学技术大学,2011
    褚瑞,肖侬,卢锡城.一种基于内存服务的内存共享网格系统[J].计算机学报,2006(7):1225-1233.
    崔华,应时,袁文杰等.语义Web服务组合综述[J].计算机科学,2010,37(5):21-25.
    邓水光,吴朝晖.Web服务组合方法综述[J].中国科技论文在线,2008,3(2):79-84.
    邓水光.WEB服务自动组合与形式化验证的研究[D].博士学位论文,浙江大学,2007.
    邓雪清.栅格型空间数据服务体系结构与算法研究[D].解放军信息工程大学,2003.
    邓雪清.栅格型空间数据服务体系结构与算法研究[D].郑州:信息工程大学测绘学院,2003.
    邓自立.云计算中的网络拓扑设计和Hadoop平台研究[D].中国科学技术大学,2009.
    杜清运,虞昌彬,任福.利用嵌套金字塔模型进行瓦片地图数据组织[J].武汉大学学报-信息科学版,2011,36(5):564-567
    杜莹.全球多分辨率虚拟地形环境关键技术研究[D].郑州:信息工程大学测绘学院,2004.
    方雷.基于云计算的土地资源服务高效处理理论框架及其平台关键技术研究[D].博士学位论文,浙江大学,2011.
    高勋.基于云计算的Web结构挖掘算法研究.北京交通大学,2010.
    怀进鹏,沁李,胡春明.基于虚拟机的虚拟计算环境研究与设计[J].软件学报,2007,18(8):2016-2026.
    黄晓云.基于HDFS的云存储服务系统研究.大连海事大学.2010.
    霍建民.基于hadoop的海量影像数据管理关键技术研究:硕士学位论文.长沙:国防科技大学,2010.
    姜淼.Hadoop云平台下调度算法的研究:硕士学位论文.吉林:吉林大学,2012.
    孔川,罗大庸.利用动态多分辨率LOD技术的地形简化研究[J].计算机工程与应用,2010,46(27):156-159.
    李德仁,肖志峰,朱欣焰,等.空间信息多级网格的划分方法及编码研究[J].测绘学报,2006,35(1):52-56.
    李德仁,朱欣焰,龚健雅.从数字地图到空间信息网格—空间信息网格理论思考[J].武汉大学学报-信息科学版,2003,28(6):642-650[2]
    李建勒,沈冰,姜仁贵,陈田庆.面向影像金字塔的四叉树空间索引算法[J].计算机工程.2011.5,37(10)
    李建勋,沈冰,郭建华,张刚.面向影像金字塔的线性四叉树编码及其特性[J].计算机应用,2011.4,31(4)
    李雪锋.基于云计算环境的web数据挖掘算法研究.北京交通大学,2010.
    刘露.全球海量遥感影像数据的分布式管理技术研究:硕士学位论文.长沙:国防科学技术大学,2007.
    刘鹏.云计算.北京:电子工业出版社,2010.
    刘宴兵,尚明生,肖云鹏.网格高性能调度及资源管理技术[M]:科学出版社,2010:32-37.
    刘扬.分布环境下的海量三维地形可视化关键技术研究[D].北京师范大学,2008.
    刘义等.利用MapReduce进行批量遥感影像瓦片金字塔构建[J].武汉大学学报-信息科学版,2013,38(3):278-280.
    马荣华,黄杏园.大型GIS海量数据分布式组织与管理[J].南京大学学报,2003,39(6):836-843.
    马永征,阎保平.一种基于虚拟资源池的网格资源调度机制[C].科学数据库与信息技术论文集.第七届科学数据库与信息技术学术讨论会.云南丽江,2004.
    冉令辉.全球空间信息剖分编码模型研究[D].北京大学,2007.
    施运梅,刘梅彦,杨根兴.网格资源管理模型研究[J].微计算机信息,2006,22(3):109-111.
    孙剑.空间数据库的开源格局[J].软件世界,2007,1,7(20):48~51
    孙牧.云端的小飞象-Hadoop[J].程序员,2008(10).
    孙征国.Terrafly服务器端系统再工程[D].北京航空航天大学,2007.
    孙征国.Terrafly服务器端系统再工程[D].北京航空航天大学,2007.
    万元嵬,程承旗,宋树华.大数据量遥感影像快速显示剖分组织方法研究[J].地理与地理信息科学,2009,25(3):33-36.
    万元嵬.影像数据剖分金字塔结构研究[D].北京大学,2009.
    王结臣,王豹,胡玮,张辉.并行空间分析算法研宄进展及评述[J].地理与地理信息科学,2011,27(6)
    王文博.语义Web服务描述语言研究.http://www.paper.edu.cn[EB/OL],2004.
    王向前.高性能MapReduce系统的优化.中国科学技术大学,2010.
    王洋,胡斌,黄坚,等.地球影像数据的组织、索引及其实现[A].中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集[C].2007.224-231.
    王宇,王乘,刘吉平.一种基于数学形态学的遥感图像边缘检测算法.重庆邮电学院学报,2003,15(2):57-60.
    田伟.海量影像存储技术研究:硕士学位论.长沙:国防科学技术大学,2007.
    吴朝晖,邓水光,吴健.服务计算与技术[M]:浙江大学出版社,2009.
    吴婷.海量存储系统中元数据管理机制的研究[D].硕士学位论文,江苏大学,2010.
    谢毅.海量遥感影像数据存储组织结构研究[D].硕士学位论文,河南大学,2011.
    徐利谋,雷英.基于功能语义的Web服务匹配算法研究[J].大众科技,2010(2):30-31.
    许欢.面向服务的土地资源空间信息多级语义网格研究[D].博士学位论文,浙江大学,2009.
    杨靖宇,张永生,刘昭华.一种适合多用户并发访问的影像存储模型[J].计算机工程,2010.536(10)
    杨靖宇,张永生,于美娇,等.基于小波变换多分辨率分析特性的遥感影像动态重构的金字塔模型[J].测绘科学,2007,32(5):50-51.
    杨靖宇,张永生,于美娇,等.基于小波变换多分辨率分析特性的遥感影像动态重构的金字塔模型[J].测绘科学,2007,32(5):50-51.
    杨硕磊,郝爱民,王莉莉.运用矩阵结构的可并行地形层次细节算法[J].计算机辅助设计与图形学学报,2011,23(2):276-283.
    叶蕾,张斌.基于功能语义的Web服务发现方法[J].计算机研究与发展,2007,44(8):1357-1364.
    余建桥,廖剑伟.网格环境中动态资源映射算法的研究[J].计算机科学,2008,35(7):197-198.
    俞黎敏.函数式编程思想[M].程序员(Programmer)2010(9).
    战怀,李红燕,徐秋元.对象-关系数据库管理系统原理与实现.北京:清华大学出版社,2006
    张丰.面向网格的海量时空数据访问、集成与互操作研究[D].博士学位论文,浙江大学,2007.
    张利红,江南,张亚军.基于元算法专题数据处理数学模型库的建立及应用[J].测绘科学技术学报,2008,25(1):72-74.
    张世峰.虚拟计算环境业务支撑平台设计与实现[D],北京邮电大学,2009.
    张亚勤.与云共舞-微软云计算的新进展.中国计算机用户,2009:12-13.
    张永生,贲进,童晓冲.地球空间信息球面离散网格-理论、算法及应用[M].北京:科学出版社,2007[3]
    赵春燕.云环境下作业调度算法研究与实现[D].北京交通大学.2009.
    赵春宇.高性能并行GIS中矢量空间数据存取与处理关键技术研究[D].博士学位论文,武汉大学,2006.
    赵华茗.搭建基于云计算的开源海量数据挖掘平台.应用实践,2010(10):76-81.
    朱珠.基于Hadoop的海量数据处理模型研究和应用:硕士学位论文.北京:北京邮电大学,2008.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700