基于文献特征提取网页信息的算法研究

英文篇名：Research on the Web Page Information Extraction Algorithm Based on Characteristics of Documents
作者：郭培铭
英文作者：GUO Pei-ming;School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology;Library of University of Shanghai for Science and Technology;
关键词：PHP ; 信息提取 ; DOM ; 图书馆 ; HTML
英文关键词：PHP;;Extraction of Information from Web Pages;;DOM;;Library;;HTML
中文刊名：XDJS
英文刊名：Modern Computer
机构：上海理工大学光电信息与计算机工程学院;上海理工大学图书馆;
出版日期：2019-01-15
出版单位：现代计算机(专业版)
年：2019
期：No.638
语种：中文;
页：XDJS201902010
页数：4
CN：02
ISSN：44-1415/TP
分类号：39-42

摘要

网页信息提取是计算机技术中重要的一项技术,在许多领域中得到应用,在图书馆领域尚未得到广泛的应用。通过以文献外在特征信息各自的特点为判断依据,对文献信息在网页中的自动提取进行算法实现,获得良好的结果。
Extraction of information from Web pages is an important technology in computer technology, this technology is not yet widely used in library field. Judgement based on the characteristics of external information of documents, the algorithm that automatic acquisition of Web pages of information of documents has been done, and makes the good final result.

引文

[1]史瑞芳.网页正文信息抽取新方法[J].通讯世界,2015,19:210-211.
    [2]陈晓云,宋伟国,苗胜法.基于DOM的中文人物Web信息提取[J].微计算机信息,2010(36):15-17
    [3]张云雷,周军,刘海霞.一种基于DOM的Web关键信息提取方法[J].现代计算机(专业版),2011,12:3-6.
    [4]汪建伟,杨冬青,高军,等.一种基于分类算法的网页信息提取方法[J].计算机科学, 2008, 35(3):91-93.
    [5]赵晓峰,凌天斌,彭波,等.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012,2:38-39,43.
    [6]徐春凤,王艳春,翟宏宇.全自动网页信息采集系统[J].长春理工大学学报(自然科学版),2015,38(2):151-154.
    [7]刘建培.基于Delphi的Web文本提取方法[J].计算机时代,2016(3):50-52.
    [8]龚真平.基于HTMLParser的Web文献信息提取[J].软件导刊,2011,10(2):14-15.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700