面向流域水资源自由文本的属性抽取方法
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Attribute Extraction from Free Text on Basin Water Resources
  • 作者:瞿珊珊 ; 周晓光
  • 英文作者:Qu Shanshan;Zhou Xiaoguang;School of Geosciences and Info-physics, Central South University;
  • 关键词:流域水资源 ; 属性抽取 ; 属性触发词 ; 频繁模式
  • 英文关键词:basin water resources;;attribute extraction;;attribute trigger words;;frequent pattern
  • 中文刊名:QBTS
  • 英文刊名:Information Research
  • 机构:中南大学地球科学与信息物理学院;
  • 出版日期:2018-05-15
  • 出版单位:情报探索
  • 年:2018
  • 期:No.247
  • 基金:国家自然科学基金项目“地表覆盖变化的众源数据处理模型与算法研究”(项目编号:41371366)成果
  • 语种:中文;
  • 页:QBTS201805011
  • 页数:5
  • CN:05
  • ISSN:35-1148/N
  • 分类号:67-71
摘要
[目的/意义]为流域水资源领域知识库的构建提供数据来源。[方法/过程]针对非结构化的流域水资源属性信息,提出一种基于属性触发词的流域水资源属性抽取方法。首先,基于统计学方法分析流域水资源文本,得到流域水资源实体-属性触发词-属性值的分布规律;其次,利用频繁模式挖掘,提取出属性触发词;最后,结合属性触发词与属性触发规则,实现属性三元组的抽取。[结果/结论]经百度百科自由文本实验与对比分析,该方法适用于数值型属性抽取,具有较高的精确率和召回率。
        [Purpose/significance]The paper is to provide data sources for repository construction on basin water resources.[Method/process]According to unstructured attribute information on basin water resources, the paper puts forwards an attribute extraction method based on attribute trigger words. Firstly, the text of basin water resources is analyzed based on the statistical analysis,the distribution rule of entity-attribute trigger word-attribute value is obtained; Secondly, frequent pattern mining is used to extract attribute trigger words; Thirdly, triple attribute extraction is carried out according to attribute trigger words and trigger rules. [Result/conclusion]Through experiment of Baidu Encyclopedia free text and comparative analysis, the results show that the method applies to numeric attribute extraction, and the precision and recall are quite high.
引文
[1]夏军,翟金良,占车生.我国水资源研究与发展的若干思考[J].地球科学进展,2011,26(9):905-915.
    [2]李锋瑞,刘七军.我国流域水资源管理模式理论创新初探[J].中国人口·资源与环境,2009,19(6):55-59.
    [3]陈家琦,王浩,杨小柳.水资源学[M].北京:科学出版社,2002.
    [4]刘绍毓,李弼程,郭志刚,等.实体关系抽取研究综述[J].信息工程大学学报,2016,17(5):541-547.
    [5]徐中一.中文信息抽取中的若干问题研究[D].长春:吉林大学,2007.
    [6]朱臻,孙媛.基于SVM和泛化模板协作的藏语人物属性抽取[J].中文信息学报,2015,29(06):220-227.
    [7]张巧,熊锦华,程学旗.基于弱监督学习的主页人物属性抽取方法[J].山西大学学报(自然科学版),2015,38(01):8-15.
    [8]叶正,林鸿飞,苏绥,等.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275.
    [9]李红亮.基于规则的百科人物属性抽取算法的研究[D].成都:西南交通大学,2013.
    [10]BALAHUR A,MONTOYO A.A feature dependent method for opinion mining and classification[C]//International Conference on Natural Language Processing and Knowledge Engineering,NLPKE 2008,New York:IEEE,2008:1-7.
    [11]唐伟,洪宇,冯艳卉,等.网页中商品“属性—值”关系的自动抽取方法研究[J].中文信息学报,2013,27(1):21-29.
    [12]王辉.基于Bootstrapping的产品属性抽取技术研究[D].北京:北京邮电大学,2015.
    [13]刘丽佳.领域实体属性关系抽取方法研究[D].昆明:昆明理工大学,2015.
    [14]郭剑毅,李真,余正涛,等.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报(自然科学),2012,48(4):383-389.
    [15]贾真,杨燕,何大可.基于弱监督学习的中文百科数据属性抽取[J].电子科技大学学报,2014,43(5):41-47.
    [16]康睿智,郝文宁,程恺,等.面向军事装备实体的属性抽取[J].计算机应用研究,2016,33(12):3721-3724.
    [17]李敏,李春平.频繁模式挖掘算法分析和比较[J].计算机应用,2005,25(s1):166-171.
    [18]马海兵.频繁模式挖掘相关技术研究[D].上海:复旦大学,2005.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700