基于Lucene全文检索构建教育搜索引擎的设计与实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
当前,伴随着因特网的普及,网页信息、各种类型的课件资源和电子信息载体等各种教育资源也不断产生。虽然这些海量的教育信息和资源是学校的财富,但是信息量的巨大却也让使用者感到了前所未有的困惑,那么如何才能更加快捷的获取学校各种形式的教育资源,如何才能更加高效的利用这些资源便显得尤为重要。
     信息时代,通过搜索引擎在互联网中获取有效信息已经成为人们生活中重要的组成部分。目前,利用Lucene构建的全文搜索引擎是一种有效的方式。本系统是在.Net平台上采用C≠开发的,数据库使用的是MSSQL Server2000。主系统要完成的功能是利用网络蜘蛛抓取网页,将获取的有效信息放入数据库,并且通过Lucene建立全文索引,可以对简单关键字进行搜索,并根据网页点击量多少从高到低进行排序,让使用者更加快捷的获取有价值的信息,此外还可以使用Ajax局部刷新页面,展示结果。
     论文中详细说明了系统开发背景,开发环境,系统的需求分析,和功能的设计与实现。此外论文还讲述了搜索引擎的原理,系统功能,并探讨使用Ajax与服务器进行异步交互数据,进而改善现有Web应用模式。
With the development of Internet, the resources about education, including websites, all kinds of documents and e-information, has been spurting frequently. These information and resources are very valuable to our schools, but at the same meaning, the vast information also confuses the users. So how to get the information we want and how to use this information efficiently has become very important to us.
     Obtaining useful information from web by search engines has become the important part of people's lives. Lucene is the way of constructing full-text search engine. This system is based on the.Net platform using C#. The database is MSSQL Server2000. Main functions are grasping web pages with crawls, adding effective information to the database, establishing full-text index with Lucene, searching through keywords, and displaying the results finally.
     This paper has showed the principle of search engine in the form of different modules, functions of this system, improving traditional web application model using Ajax. It shows explanation of the system's background, development environment, system analysis of demanding, and functions of design.
引文
[1]李刚,宋伟,邱哲.征服Ajax和Lucene构建搜索引擎[M].北京:人民邮电出版社,2010.
    [2]Christian Thilmany[美]..NET模式:架构设计与实现[M].张晓坤,汤涛,谭立平[译].北京:人民邮电出版社,2006.
    [3]吴财军.C#经典范例50讲[M].北京:北京希望电子出版社,2003.
    [4]郑耀东,蔡骞.ASP.NET网络数据库开发实例精解[M].北京:清华大学出版社,2006.
    [5]方睿,刁仁宏,吴四九.网络数据库原理及应用[M].成都:四川大学出版社,2005.
    [6]Krzysztof Cwalina,Brad Abrams[美]..NET设计规范[M].葛子昂[译].北京:人民邮电出版社,2006.
    [7]Paul Nielsen[美].Microsoft SQL Server 2000宝典[M].刘瑞,陈微,闫继忠,刘文[译].北京:中国铁道出版社,2004.
    [8]范彤华.网络信息搜索引擎的现状和优化[J].文教资料,2007.
    [9]万志峰.搜索技术现状及发展趋势[J].现代图书情报技术,2004.
    [10]刘哗.中文元搜索引擎综合比较分析[J].情报检索,2007.
    [11]ERIKHATCHER, OTSGOSPODNETIC. Lueene in Action[M]. Manning,2005.
    [12]陈庆伟,刘军.基于Lucene的网站全文搜索的设计与实现[D].科技情报开发与经济,2005.
    [13]车东.在应用中加入全文检索功能—基于Java的全文索引引擎Lucene简介[EB/OL]. http://www.chedong.com/tech/Lucene.html,2009.03.20.
    [14]管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007.
    [15]李广丽,刘觉夫.垂直搜索引擎的研究与实现[J].情报杂志,2009.10.28(10).
    [16]李卫华.Agent协助建立矛盾问题的可拓模型研究[J].数学的实践与认识,2009:39(4):173-177.
    [17]李晶,文登敏.基于Lucene的全文检索引擎的研究与应用[J].淮阴工学院学报,2008(2):57-59.
    [18]李飒.基于GATE的中文信息抽取系统的开发和实[J].中国科学院研究生院,2006.
    [19]屈喜龙.uml及面向对象的分析与设计的研究[J].计算机应用研究金融论坛,2005.
    [20]李刚.网络协作式学习资源库的研究与实现[J].第四军医大学,2005.
    [21]http://sh.diao.googlepages.com/sereport2, baidu与google的中文比较分析.
    [22]中国互联网络信息中心.中国互联网络发展状况统计报告(2002/7),2002.
    [23]http://ehomsky.bokee.eom/1075252.html现代汉语通用语料库的设计、结构与功能.
    [24]http://htmlparser.soureeforge.net/.
    [25]http://jakarta.apaehe.org/poi/.
    [26]http://www、andykhan.com/.
    [27]http://www.pdfbox.org.
    [28](美)Kevin Duffey著,于军等译.JSP站点设计编程指南[M].机械工业出版社,2002.21.
    [29](美))JohnBell著,马树奇等泽JavaServlets2.3编程指南[M].机械工业出版社,2002.216—262
    [30](韩)李载甲著,郑振华等译.JSP完全探索[M].中国青出版社,2002.191—220.
    [31](美)Rahim著,喻文中等译.EJB编程指南[M].机械工业出版社,2002.740-801
    [32]童恒庆.统计计算与数据分析[M].高等教育出版社,2006
    [33]]张汛沫.搜索引擎的设计剖析[M].计算机工程与科学,2002.
    [34]徐宝文,张卫丰.搜索引擎与信息获取技术[M].北京:清华大学出版社,2003.12.19.
    [35]Michael K. Bergrman. The Deep Web:Surfacing Hidden Value. [R] Bright Planet Deep Content,20()1.1-5
    [36]Heng Qing Tong. Theoretical Eeonometries:Mathematical Models And Computation, Science Press,Beijing:2(X)5.
    [37]p. Srinivasan,F. MenczerG. Pant:AGeneralEvaluationFrameworkforTopicalCrawlers.I nformationRetrieval,20()5,8(3):417-47.
    [38]李晓明,李星主编.搜索引擎与Web挖掘进展(M).北京:高等教育出版社,2003.
    [39]王传美,童恒庆.多维GARCH模型的半参数有效估计[J].应用数学,2005.
    [40]google statistics.http://www.google.com.
    [41]GooglePageRank算法研究.http://www.goldenbg.com/.2006-09.
    [42]赵汀,孟祥武.基于Lucene API的中文全文数据库设计与实现[J].计算机工程与应用,2003.
    [43]Lucene FAQ Home Pgae.http://www.jguru.com./faq/Lucene.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700