基于Web搜索的地质情报信息获取与分析关键技术

论文作者：段献 ; 邓吉秋
年：2016
作者机构：中南大学地球科学与信息物理学院地理信息系;
论文关键词：web ; 地质情报 ; 信息获取 ; 关键技术
会议召开时间：2016-10-21
会议录名称：第十五届全国数学地质与地学信息学术研讨会论文集
英文会议录名称：Proceedings of the 15th National Workshop on Mathematical Geosciences and Geoinformatics
语种：中文
分类号：P628
学会代码：ZSYD
会议名称：第十五届全国数学地质与地学信息学术研讨会
会议地点：中国湖南长沙
主办单位：中国地质学会数学地质与地学信息专业委员会、中南大学、湖南省国土资源厅、湖南省地质学会
学会名称：中国地质学会数学地质与地学信息专业委员会
页数：1
文件大小：758k
原文格式：D
会议级别：全国

摘要

随着互联网的迅速发展,web信息呈指数增长,数据呈现出数据量大,数据种类多,实时性强,价值大等特点,互联网是一个海量、巨大的信息库,包含着各种各样的数据和资源。地质矿产资源是人类生存和经济发展的重要物质基础,是国家安全的重要保障。全球地质矿产资源分布不均的状况导致世界上任何一个国家不可能能够完全依赖自己的矿产资源实现其自身国家经济的发展,随着经济全球化的逐步发展,矿业全球化的脚步日益的加快。在这种大背景下,对矿产资源的勘查和情报搜集,是矿业全球化乃至世界经济全球化的客观要求,是缓解我国铝、铜、铁、石油等大宗矿产品短缺瓶颈约束和实现全球矿产资源合理配置的有效途径。本文主要研究如何基于web搜索的地质情报信息获取与分析,从搜索引擎入手,利用基于关键字的网络爬虫,抓取地质矿产相关的原始网页文本信息,首先使用正则表达式,对文本进行预处理,剔除无用的标签和信息,进一步进行分词,主题相关度分析等。为进一步研究提供海量文本资料。从理论结合实践,现阶段的成果有:(1)实现了基于搜索引擎的关键字网络爬虫,提取相关网页链接入库;(2)基于正则表达式,开源分词库,TF.IDF开源算法等,对文本进行预处理和信息提取,为后续文本挖掘提供研究素材。

引文

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700