用户名: 密码: 验证码:
基于P2P的分布式主题爬虫系统的设计与实现
详细信息   全文下载|推荐本文 |
  • 出版年:2010
  • 作者:朱学芳;韩占校
  • 单位1:南京大学信息管理系、多媒体信息处理研究所
  • 出生年:1962
  • 学历:博士
  • 职称:教授
  • 语种:中文
  • 作者关键词:网络爬虫;对等网络;分布式计算;信息检索;主题爬虫
  • 起始页:402
  • 总页数:6
  • 刊名:情报学报
  • 是否内版:否
  • 刊频:双月刊
  • 创刊时间:1982
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会;中国科学技术信息研究所
  • 主编:武夷山
  • 地址:北京市复兴路15号
  • 邮编:100038
  • 电子信箱:qbxb@istic.ac.cn
  • 网址:http://www.cssti.org.cn
  • 卷:29
  • 期:3
  • 期刊索取号:P965.5066 547
  • 数据库收录:INSPEC(科学文摘);LISA(图书馆和信息科学文摘);РЖ(俄罗斯文摘杂志);中国科技论文与引文数据库(中国科学技术信息研究所);中文社会科学引文索引(南京大学);中国学术期刊文摘(中国科协);中国期刊全文数据库(同方);数字化期刊全文数据库(万方)
摘要
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700