中文全文检索技术研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
全文检索技术是信息处理的各领域中的重要技术。本文对全文检索技术进行了以下几方面的研究:
     1、介绍了国内外检索技术的发展过程,讨论了普通文本检索、概念信息检索、超文本信息检索、多媒体信息检索、数据挖掘等的技术特点。
     2、研究了全文检索技术的两种主要索引方法的特点和实现过程。其中基于字表的检索方法由于具有无需分词、实现容易的优点,因而在实践中被广泛采用。然后针对该算法存在的“索引库较大、匹配速度不高和查全率较高而查准率较低”等缺点,引入了第二种检索方法:基于词表的检索方法。
     3、研究了中文自动分词技术,这是中文全文检索钟的关键技术。对其中的几种方法,如机械匹配法(即MM法)、特征词库法、约束矩阵法、语法分析法和理解切分法等做了详细的比较和分析,并归纳出各自特点。其中MM法由于实现简单,并且是其它方法的基础,本文对其进行了着重介绍。
     4、在MM方法的基础上,本文对一种利用基于字、词和词组的混合模型来实现中文全文检索的方法进行了探索和研究。该算法的基本原理是:把所有的单字、词还是词组都作为语词,建立汉语词语二叉树。分词时,读取二叉树右边的内容,并比较左节点的长度,得到有意义的最小长度的语词。然后又在这种算法的基础上进一步讨论了一种改进的MM法以减少词语的歧义切分。
     5、设计了校园网内Web页面的搜索引擎,该引擎的主要特点是:将搜索引擎主要分为前端和后端,后端获取Web文档,然后分词,建立和更新索引;前端提取索引库中的内容,向客户提供检索服务。在该系统中利用网络蜘蛛,扫描校园网中所有HTML文档,寻找所有与检索关键字相关的页面。并将向量空间的思想运用到其中,即可提取出其中的资源中心,即检索结果。
The full text retrieval (FTR) is the primal technology of disposing the information. The article does some research of the full text retrieval technology.
    1、 The article summarize the development of the web search technology in the domestic country and aboard. It will refer to not only the common document retrieval in the web, but also the query of concept information, hypertext information, multimedia information and the data mining. These new technology are also introduced briefly. The article lists the specification of the full text retrieval technology, at the same time the deficiencies are also referred and the trends of the future are demonstrated.
    2、 The paper demonstrates the two index methods of the FTR. Search based on the words list is very simple in the implementation of the algorithm without dividing the words and it is used widely. Because of considerable storage space and larger index database, higher rate in the full searching and the lower rate in the exact searching, the article demonstrates a new retrieval method based on the phrase list.
    3、 Chinese Words Divided Syncopation Technology is the difficulty of the query technique based on phrase. Some divided syncopation such as mechanical matching method, feature phrase library method, restriction matrix method, syntax analysis method and comprehended syncopation method are emphasized. The MM method is easy to realize and the foundation of other methods, and is introduced emphatically.
    4、 The article purpose the hybrid modeling based on character, word and phrase as the Chinese FTR using MM method. To reduce de divergent divided syncopation an improved MM method is prompted.
    5、 The retrieval system adopting the algorithm could search for World wide web pages in school. The search engines could be classified front searching engines and meta searching engines: the meta one get Web document, then slice the word,
    
    
    
    
    establish and update index; the front one extract the content of the index library, provide the users query service. It uses network spider to scanning all HTML documents and find out the pages which is useful. Then it uses the idea of Vector Space Model (VSM) to pick up the result.
引文
1.苏广利.因特网信息检索工具的十大发展方向.图书馆建设,2001,1:75-76
    2.雷春明,焦玉英.Web页面信息检索智能代理模式研究.现代图书情报技术,2001,第3期:30-32
    3.黄崑,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001,第3期:26-29
    4.高迎,王丽君,王锡钢.Simutem:一个中文信息检索系统.鞍山师范学院学报,2001,第3期:82-85
    5.储节旺,鲍克忠.网上信息检索目标与策略的转换.情报理论与实践,2002,第25卷第1期:55-57
    6.曹元大,贺海军,涂哲明.中文Web文档全文检索系统的设计及实现.北京理工大学学报,2002,第22卷第1期:68-71
    7.周前,肖建华.全文检索中的文本学习技术研究.湖南工程学院学报,2001,第11卷第2期:64-67
    8.曹元大,贺海军,涂哲明,王琴.全文检索字索引技术的研究与实现.计算机工程,2002,第28卷第6期:260-262
    9.刘志勇.网络环境下信息检索效率的评价.大连大学学报,2002,第23卷第1期:110-112
    10.张开舟,张惠惠.万维网信息检索系统开发技术.情报学报,2002,第21卷第1期:42-47
    11.周涛.两种全文信息检索系统的比较研究.情报理论与实践,2002,第25卷第2期:138-140
    12.陈华辉.一个中英文全文搜索引擎的设计与实现.计算机应用研究 2001,第三期:131-133
    13.陈淑燕,瞿高峰.全文检索系统的数据库设计.延安大学学报(自然科学版),2001,3.第20卷第1期:31-34
    14.郑庆华,张炜.超文本全文检索技术的研究与实现.西安交通大学学报,2001,4第35卷 第4期:377-381
    
    
    15.张俭恭,陈定权.汉字全文检索系统的关键技术与实现.现代图书情报技术,2001,第2期:16—18
    16.李志蜀,李果.中文搜索引擎的原理剖析及开发实现技术.计算机应用研究,2001第11期:96—99
    17.杨建林.全文检索研究.情报理论与实践,第23卷2000年第1期:12—13
    18.苏新宁.超文本技术在全文检索系统中的实现.情报学报,2000年12月,第19卷第6期:582—585
    19.马迎春.全文检索系统概述.情报科学,2000年12月第18卷第12期:1132—1135
    20.董春晓.万维网上的全文检索技术及其发展.情报理论与实践第23卷2000年第1期:53—55
    21.李广建,黄永文.基于WWW的全文检索系统设计与实现.现代图书情报技术,2000年第2期:26—28
    22.裘江南,马克芬.一种基于Web的全文检索系统的建立方法.现代图书情报技术,2000年的2期:32—34
    23.顾春庆,于玉,顾永立,胡运发.汉字全文检索的实现与探讨.计算机工程,1998年2月 第24卷第2期:69—72
    24.赵曾贻,陈天娥,朱兰.一种基于语词的分词方法.苏州大学学报(自然科学),2002年7月第18卷第3期:44—48
    25.蒋微.中文搜索引擎的自动分词算法.电脑开发与应用,2002年第15卷第6期:26—27
    26.陈天娥,赵曾贻.基于字、词、词组的中文搜索引擎分词系统.武汉工业学院学报,2002年第3期:37—40
    27.郭辉,苏中义,王文,崔骏.一种改进的MM分词算法.微型电脑应用.2002年第18卷第1期:13—16
    28.赵新民.搜索引擎的中文信息处理技术.现代情报,2002年5月第5期:98—100
    29.陈桂林,王永成,韩客松,王刚.一种改进的快速分词算法.计算机研究与发展,2000年4月第37卷第4期:418—424
    
    
    30.欧振猛,余顺争.中文分词算法在搜索引擎应用中的研究.计算机工程与应用,2000.8:80—83
    31.谭琼,史忠植.分词中的歧义处理.计算机工程与应用,2002,11:125-128
    32.邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术.计算机应用研究,2000,第12期:21-24
    33.闫引堂,周晓强.交集型歧义字段切分方法研究.情报学报,2002,第19卷第6期:637-643
    34.秦洪晶.Internet中文信息检索技术.青海大学学报,2000,第13卷第4期:86-89
    35.丁丰,董娜,林碧琴,袁保宗.自然语言处理系统中自动分词的研究.北方交通大学学报,1999,第23卷第6期:31-33
    36.严威,赵政.开发中文搜索引擎汉语处理的关键技术.计算机工程,1999,第25卷第6期:5-7
    37.李盛涛,吴丽辉,于满泉,潘文锋,余智华,王斌程,学旗.主题Web信息采集的研究与分析.语言计算与基于内容的文本处理.清华大学出版社.2003年7月:488-494
    38.傅国宏,王晓龙.基于词形的汉语文本切分方法.情报学报,1999,第18卷第3期:235-240
    39.刘说,王斌,杨志峰,张鑫.Web关键资源发现中的链接分析技术.语言计算与基于内容的文本处理.清华大学出版社.2003年7月:495-500
    40.郑延斌.自动分词中的歧义处理.微型机与应用,1998,第6期:9-10,49
    41.邹育理.Web环境下的信息检索.大学图书情报学刊,2001,第3期:14-16
    42.鲁松,白硕,黄雄,张健.基于向量空间模型的有导词义消歧.计算机研究与发展,2001,第38卷第6期:662-667
    43.张英福,郝志娟.计算机检索策略初探.图书馆学研究,2000,6:63-65
    44.陈建秋,邓飞其,刘发贵.智能化搜索引擎分析与探讨.广州大学学报(自然科学版),2002,第1卷第3期:39-42
    45.何军,周明天.信息网络中的信息过滤技术.系统工程与电子技术,2001,第23卷第11期:76-79
    46.李蕾,王楠,张剑,钟义信,郭祥昊,贾自燕.中文搜索引擎概念检索初探.
    
    计算机工程与应用,2000,6:1-4
    47.董春晓.万维网上的全文检索技术及其发展.情报理论与实践,2000,第23卷第1期:53-55
    48.金燕,李建华,杨宇航.WWW上的全文信息检索技术.计算机应用研究,1999,第1期:40-43
    49.朱靖波,姚天顺,中文信息自动抽取.东北大学学报(自然科学版),1998,第19卷第1期:52-54
    50.郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法.情报学报,1998,第17卷第5期:352-357
    51.尹锋.汉语自动分词研究的现状与新思维.现代图书情报技术,1998,第4期:22-26
    52.杨雅群,张建中,刘兵.超文本超媒体技术及其发展.电子展望与决策,1997,第4期:38-41
    53.刘伟权,钟义信.自然语言处理与全文情报检索.情报理论与实践,1997,第20卷第1期:43-46
    54.余盛可.超文本中的迷路问题.计算机研究与发展,1994,第31卷第5期:24-28
    55.肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中的组合型歧义.计算机工程与应用,2001.19:87-90
    56.杨雅群,张建中,刘兵.超文本超媒体技术及其发展。电子展望与决策,1997年第4期:38-41
    57.潘有能.一个自动分词分类系统的实现.情报学报,2002年2月第21卷第1期:38-41
    58.丁承,邵志清.基于字表的中文搜索引擎分词系统的设计与实现.计算机工程,2001年2月第27卷第1期:191-193
    59.严海兵.Internet搜索引擎检索功能的研究.苏州城市建设环境保护学院学报,2001年3月第3卷第1期:58-62
    60.王丽君,高迎,王锡钢.中文检索系统中查询的扩展.小型微型计算机系统,2002年7月第23卷第7期:894-896

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700