用户名: 密码: 验证码:
数值信息抽取研究概述及应用分析
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:A Overview of Numerical Information Extraction Research and Application Analysis
  • 作者:李春杰 ; 马建玲 ; 主雪梅
  • 英文作者:LI Chun-jie;MA Jian-ling;ZHU Xue-mei;Lanzhou Library,Chinese Academy of Sciences;Department of Library,Information and Archives Management,School of Economics and Management, University of Chinese Academy of Sciences;Hebei University of Water Resources and Electric Engineering;
  • 关键词:数值信息 ; 数值信息抽取 ; 数值信息抽取理论
  • 英文关键词:numerical information;;numerical information extraction;;numerical information extraction theory
  • 中文刊名:QBKX
  • 英文刊名:Information Science
  • 机构:中国科学院兰州文献情报中心;中国科学院大学图书情报与档案管理系;河北水利电力学院;
  • 出版日期:2019-02-01
  • 出版单位:情报科学
  • 年:2019
  • 期:v.37;No.330
  • 基金:国家自然科学基金项目“气候变化科学成果集成研究范式及其实现平台研究”(41671535)
  • 语种:中文;
  • 页:QBKX201902007
  • 页数:7
  • CN:02
  • ISSN:22-1264/G2
  • 分类号:42-47+126
摘要
【目的/意义】面对海量的信息,人们需要更为高效准确的信息获取方式。数值信息抽取的研究使隐含在无序信息载体中的大量有价值数值信息可以得以利用,从而满足科研工作者数据驱动型研究的信息需求。【方法/过程】本文旨在总结和归纳数值信息抽取研究的相关内容,包括数值信息抽取的内涵、数值信息抽取研究概况、面临的困境和制约因素以及应用等。【结果/结论】数值信息抽取仍然面临着巨大的挑战,且现有的数值信息抽取研究较少,对于数值信息的抽取,基于规则和统计学习的方法各有利弊,总体来说,基于规则的抽取方法仍是主流方法。
        【Purpose/significance】Faced with massive amounts of information, people need more efficient and accurate ways to obtain information. There are also a lot of useful disordered information,research on numerical information extraction can help us use this information to meet the information needs of scientific research workers who does data-driven research. 【Method/process】This paper aims to summarize the relevant content of numerical information extraction research,including the connotation of numerical information extraction, the research overview of numerical information extraction,the dilemmas, the main constraints and applications.【Result/conclusion】The extraction of numerical information still facesenormous challenges, and there is less research on the extraction of existing numerical information. For the extraction of numerical information, methods based on rules and statistical learning have advantages and disadvantages. Overall,rules-based extraction methods are still the mainstream method.
引文
1吴超,郑彦宁,化柏林.数值信息抽取研究进展综述[J].中国图书馆学报,2014,40(2):107-119.
    2 程显毅,朱倩,王进.中文信息抽取原理及应用[M].北京:科学出版社, 2010:181-182.
    3 毋菲.数值信息的抽取方法研究[D].太原:山西大学,2010.
    4 Voorham J,Denig P. Computerized extraction of information on the quality of diabetes care from free text in electronic pa-tient records of general practitioners[J]. Journal of the American Medical Informatics Association:JAMIA, 2007, 14(3):349-354.
    5 李云静.基于石油领域本体的Web信息抽取技术研究[D].大庆:东北石油大学,2015.
    6 吴胜,刘茂福,胡慧君,等.中文文本中实体数值型关系无监督抽取方法[J].武汉大学学报:理学版, 2016, 62(6):552-560.
    7 Maiya A S, Visser D, Wan A.Mining Measured Information from Text[C]//Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, Santiago,Chile. New York, USA:ACM, 2015.
    8 Turchin A, Kolatkar N S, Grant R W, et al. Using regular expressions to abstract blood pressure and treatment intensification information from the text of physician notes[J]. Journal of the American Medical Informatics Association:JAMIA,2006,13(6):691-695.
    9 Madaan A, Mittal A, Ramakrishnan G, et al.Numerical Relation Extraction with Minimal Supervision[C]//Proceedings of the 30th AAAI Conference on Artificial Intelligence.USA:AAAI Press,2016:2764-2771.
    10 张远鹏,董建成,周慧玲,王理,吴辉群,耿兴云.基于HMM的H7N9事件中时间信息的抽取[J].中国数字医学,2015,10(10):23-26.
    11 卢东标.基于决策树的数据挖掘算法研究与应用[D].武汉:武汉理工大学,2008
    12 周海波.基于决策树的分类算法研究[D].兰州:兰州大学,2009.
    13 路明懿.基于深度置信网络算法的作者信息抽取研究[D].长春:东北师范大学,2016.
    14 万静,涂喆,冯晓.基于条件随机场的医药领域症状信息抽取[J].北京化工大学学报(自然科学版),2016,43(01):98-103.
    15 Mooney R J, Bunescu R. Mining knowledge from text using information extraction[J]. ACM SIGKDD explorations newsletter, 2005, 7(1):3-10.
    16 侯伟涛,姬东鸿.基于Bi-LSTM的医疗事件识别研究[J].计算机应用研究,2018,(7):1-2.
    17 李琴,伊晓玲,曹根牛.关于支持向量基中二次函数集VC维的研究[J].科技信息(学术研究),2007,(33):78-79.
    18 郑红军,周旭,毕笃彦.统计学习理论及支持向量机概述[J].现代电子技术,2003,(4):59-61.
    19 哈明虎,田景峰,张植明.基于复随机样本的结构风险最小化原则[J].计算机研究与发展,2009,46(11):1907-1916.
    20 张妍.基于隐马尔可夫模型的中文信息抽取算法研究[D].鞍山:辽宁科技大学,2014.
    21 徐延勇,郭忠伟,周献中.基于最大熵方法的统计语言模型[J].计算机工程与应用,2002(05):53-55,121.
    22 李军,费川云.地球空间数据集成研究概况[J].地理科学进展,2000,(3):203-211.
    23 葛全胜,郑景云,郝志新.过去2000年亚洲气候变化(PAGES-Asia2k)集成研究进展及展望[J].地理学报,2015,70(03):355-363.
    24 葛全胜,陈泮勤,张雪芹.全球变化的集成研究[J].地球科学进展,2000,(4):461-466.
    25 叶明,谷晨霞.“大数据”时代决策支持系统新发展[J].信息安全与技术,2013,4(8):6-8.
    26 张文江.地质灾害数据集成关键技术研究[D].成都:成都理工大学,2013.
    27 张宁.面向数值问题的答案抽取与生成[D].沈阳:沈阳航空航天大学,2018.
    28 余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134.
    29 郭少卿,乐小虬.科技论文中数值指标实际取值识别[J].数据分析与知识发现,2018,2(1):21-28.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700