用户名: 密码: 验证码:
基于Lucene的新闻垂直搜索引擎设计与实现
详细信息    查看全文 | 推荐本文 |
摘要
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎。对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页。采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类。实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息。
        
引文
[1]裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130.
    [2]熊忠阳,张鹏招,张玉芳.基于X2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-518.
    [3]肖婷,唐雁.改进的X2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137.
    [4]朱敏,罗省贤.基于Heritrix的面向特定主题的聚焦爬虫研究[J].计算机技术与发展,2012,22(2):65-68.
    [5]邱云飞,王威,刘大有,等.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700