摘要
网页信息提取是计算机技术中重要的一项技术,在许多领域中得到应用,在图书馆领域尚未得到广泛的应用。通过以文献外在特征信息各自的特点为判断依据,对文献信息在网页中的自动提取进行算法实现,获得良好的结果。
Extraction of information from Web pages is an important technology in computer technology, this technology is not yet widely used in library field. Judgement based on the characteristics of external information of documents, the algorithm that automatic acquisition of Web pages of information of documents has been done, and makes the good final result.
引文
[1]史瑞芳.网页正文信息抽取新方法[J].通讯世界,2015,19:210-211.
[2]陈晓云,宋伟国,苗胜法.基于DOM的中文人物Web信息提取[J].微计算机信息,2010(36):15-17
[3]张云雷,周军,刘海霞.一种基于DOM的Web关键信息提取方法[J].现代计算机(专业版),2011,12:3-6.
[4]汪建伟,杨冬青,高军,等.一种基于分类算法的网页信息提取方法[J].计算机科学, 2008, 35(3):91-93.
[5]赵晓峰,凌天斌,彭波,等.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012,2:38-39,43.
[6]徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报(自然科学版),2015,38(2):151-154.
[7]刘建培.基于Delphi的Web文本提取方法[J].计算机时代,2016(3):50-52.
[8]龚真平.基于HTMLParser的Web文献信息提取[J].软件导刊,2011,10(2):14-15.