基于Web搜索的地质情报信息获取与分析关键技术
详细信息    查看官网全文
摘要
随着互联网的迅速发展,web信息呈指数增长,数据呈现出数据量大,数据种类多,实时性强,价值大等特点,互联网是一个海量、巨大的信息库,包含着各种各样的数据和资源。地质矿产资源是人类生存和经济发展的重要物质基础,是国家安全的重要保障。全球地质矿产资源分布不均的状况导致世界上任何一个国家不可能能够完全依赖自己的矿产资源实现其自身国家经济的发展,随着经济全球化的逐步发展,矿业全球化的脚步日益的加快。在这种大背景下,对矿产资源的勘查和情报搜集,是矿业全球化乃至世界经济全球化的客观要求,是缓解我国铝、铜、铁、石油等大宗矿产品短缺瓶颈约束和实现全球矿产资源合理配置的有效途径。本文主要研究如何基于web搜索的地质情报信息获取与分析,从搜索引擎入手,利用基于关键字的网络爬虫,抓取地质矿产相关的原始网页文本信息,首先使用正则表达式,对文本进行预处理,剔除无用的标签和信息,进一步进行分词,主题相关度分析等。为进一步研究提供海量文本资料。从理论结合实践,现阶段的成果有:(1)实现了基于搜索引擎的关键字网络爬虫,提取相关网页链接入库;(2)基于正则表达式,开源分词库,TF.IDF开源算法等,对文本进行预处理和信息提取,为后续文本挖掘提供研究素材。
引文

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700