基于知识库的中文网络检索工具——经济信息智能搜索引擎研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本论文试图从计算机技术和图书情报学理论与实践手段出发,应用文献信息自动标
    引和组织技术于网页的加工处理过程上。在分析了中外搜索引擎的现状与不足,搜索引
    擎分类主题一体化进展以及网页主要特征的基础上,本文提出了针对中文网页特征的信
    息标引和组织方案,并利用相关网络技术,构建了一个实验性经济信息智能搜索引擎。
     中文网页的自动标引思想主要基于知识库的概念进行。知识库实际上是一个基于《中
    图法》的专家知识系统,包括了中图法库、汉表库、分类号—主题词对应库、同义词库、
    关键词库、停用词库和特例词库等若干数据库。在确定网页基本信息标引源的基础上,
    中文网页主题标引运用了基于词频的统计加权法;通过与分类号—主题词对应库主题词
    串的词面相似度计算,进一步完成中文网页的赋号标引,即分类标引。
     随后,本文利用Borland Delphi、Visual FoxPro等工具设计并开发了一个包括中文网
    页文本信息提取、自动抽词、自动主题与分类标引、标引结果处理、知识库维护等功能,
    用以处理中文网页信息的自动标引实验系统;并简要介绍了系统的设计、工作流程、使
    用方法及运行条件。
     根据分类主题一体化发展方向,本文还设计了检索型、目录型及分类主题一体化检
    索系统,并提出基于集成词表的不同引擎间类目体系的兼容互换方案。
     文章的最后对中文网页自动标引系统从系统标引效率、标引准确率等方面进行了综
    合测评,并客观分析了系统存在的问题和不足。与手工标引相比,自动标引正确率达到
    了80%以上。
With traditional informatics theory and practice, the paper try on using automatic indexing technology of documents to process Web pages. Firstly, the present condition and shortages of search engine are described; Secondly, the characteristics of Web pages data are analyzed; Lastly, the author present the indexing scheme of Chinese Web pages and develop a experimental search engine of economic information with network technology.
    
     The automatic indexing of Chinese Web pages is based on knowledge database. In fact, the knowledge database is an experiential specialist system, which includes library classification, thesaurus, concordance of class number with descriptor, synonymous dictionary, keywords lists, stop-words lists, etc.
    
     After determining the indexing data of Web pages, the method of weighted word frequency, which combined with statistical algorithms, is adopted to exercise the subject indexing of Chinese Web pages. And then, the paper use the measure of literal similarity to classify the Chinese Web pages, which based on lots of experiential classifying data.
    
     Then, the author uses Borland Delphi and Visual FoxPro to develop an automatic indexing system, which is used to process Chinese Web pages. The experiential system is composed of Web pages text analysis, automatic words extracting, automatic subject indexing, classifying, indexing result confirmation and knowledge database maintenance. Moreover, the design procedure, workflow, usage approach, running conditions of the system are detailed.
    
     According to the trend of integration of classifications and thesauri, the paper also designed keyword retrieval system, directory search system, and integrated system individually.
    
     At the end of the paper, the author tests and evaluates the automatic indexing system in some aspects; the deficiency of system is also detailed objectively.
引文
1 储荷婷,张晓林,王芳.Internet网络信息检索—原理、工具、技巧.清华大学出版社,1999(10)
    2 http://www. yahoo.com/
    3 http://www. altavista.com/
    4 http://www. infoseek.com
    5 http://www. excite.com
    6 http://www. sohoo.com.cn
    7 http://www. goyoyo.com.cn
    8 http://www. yeah.net
    9 http://pccms.pku.edu.cn
    10 http://www. sina.com.cn
    11 http://compass.net.edu.cn:8010/
    12 张晓辉,邵华,常桂然.WWW上的信息发现与搜索引擎技术.小型微型计算机系统,1998,19(6),66-71
    13 陈朝晖.Internet中文信息搜索引擎GoYoYo的研究.现代图书情报技术,1998,2,28-31
    14 章琳,张保明.WWW检索工具比较研究.情报学报,1998,17(4),273-280
    15 沈红芳.互联网搜索引擎及其功能优化模型.情报学报,2000,18(1),7-9
    16 徐芳,李晓霞,温浩.基于Web的搜索引擎及其在化学信息资源导航中的应用.计算机与应用化学,1999,16(1),19-34
    17 谢宜辰.网络智能文本分类系统的研究与实现.湘潭大学自然科学学报,2000,22(1),13-15
    18 王小华,张国煊.基于多元统计分析的电子文本自动分类.杭州电子工业学院学报,1999,19(3),7-10
    19 翁惠玉,马范援,朱义军,杨传厚.网络搜索引擎的现状分析.情报学报,18(增刊),100-102
    20 陈桂林,王永成.Internet网络信息自动摘要的研究.高技术通讯,1992,2,33-36
    21 邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现.情报学报,1999,18(3),195-201
    22 张俐,李星等.中文网页自动分类新算法.清华大学学报(自然科学版),2000,40(1),39-42
    23 吕津,赵明生.对因特网上自动信息提取的研究.数据通信,2000,1,5-8
    24 杨清,杨岳湘,瞿国平.基于Yahoo的信息自动分类器的原理与设计.计算机工程与科学,1999,21(4),54-58
    25 卢世光,丁方忠.搜索引擎使用技术回顾和发展趋势探讨.广东通信技术,1999,19(5),18-21
    26 何骥,张惠惠,刁倩.万维网信息检索客户端处理技术.情报学报,1999,18(3),219-224
    
    
    27 廖明宏,吴翔虎.基于知识的网页检索工具.小型微型计算机系统,2000,21(4),375-378
    28 衡中青.INTERNET上的索引探微.情报科学,2000,18(1),68-70
    29 杨清,杨岳湘,瞿国平.层次分类中的机器学习方法研究.现代计算札1999,8,24-27
    30 任瑞娟,李洪建.中文WWW搜索引擎比较研究.大学图书馆学报,1999,5,55-61
    31 陈敏.中文智能搜索引擎-思路、设计与系统.软件世界,2000,5,60-62
    32 孙及园,林锦贤.对Web网页的查询及信息提取.福州大学学报(自然科学版),2000,28(3),93-97
    33 http://www. ukoln.ac.uk/metadata/desire/classifieation/class_tc.htm
    34 Shafer K. A Brief Intercalation to Scorpion. http://purl.oclc.org/scorpion, 1998.12.27
    35 Internet: Evaluation. http://sunsite.berkeley.edu/Internet
    36 Librarian's Index to the Internet: About. http://sunsite.berkeley, edu.lad, 1999.7.3
    37 http://infomine.ucr.edu/Main
    38 康桂英.分类法与主题法在网络信息资源组织与揭示中的应用.图书馆建设,1999(3),26-28
    39 黄晓倩.网络环境下分类法改进初探.图书馆建设,2000(2),40-42
    40 曹东,韩全惜,庄军.运用情报检索语言理论与方法完善搜索引擎的功能.情报理论与实践,2000,23(1),58-61
    41 强自力.网络分类目录及其分类法.大学图书馆学报,1999(4),37-39
    42 王建平.网络(联机)环境中情报检索语言的几个问题.情报科学,2000,18(4),310-313
    43 马张华,张宇萌.指南型网络分类体系初探.大学图书馆学报,2000(3),22-25
    44 马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2),36-40
    45 陈树年.搜索引擎及网络信息资源的分类组织.
    46 http://www.cnjj.com/
    47 http://www.chinainfobank.com
    48 戴维民.情报检索语言综论.军事谊文出版社,1994,9
    49 梁新潮.分类法、主题法与分类主题一体化——兼评中国分类主题词表.分类编目,34-36
    50 John G.P.著,刘怀亮等译.数字通信上册.电子工业出版社,1988,58-85
    51 王启才著.信号检测与估计.华东工学院,85-93
    52 B.Dialle. Study and implementation of combined techniques for automatic extraction of terminology. The balancing act: combining symbolic and statistical approaches to language. Proceeding of the workshop.New Mexico:New Mexico State University, 1994
    53 Goetz, D.V. Subject headings for everyone:Popular Library of Congress Subject Headings with Dewey Numbers, OCLC Newsletter, May/June, 1998,29-33
    54 张雪英.经济信息检索词汇转换系统的设计,南京农业大学硕士毕业论文,1999(6)
    55 王知津.现代索引文摘法.北京图书馆出版杜,1999,5
    
    
    56 Salton G, C S Yang. On the Specification of Term Values in Automatic Indexing. Journal of Documentation, 1973,29(4)
    57 刘开瑛,郑家恒,刘静.基于金融档案分类表的自动分类算法研究.情报学报,1997,16(5),346-353
    58 Baxendale, P. E. Machine-made index for technical literature-an experiment. IBM Journal of Research and Development, Vol.2,No.4,1958,pp.354-361
    59 张琪玉.自然语言检索中各种因素对检索效率的影响.张琪玉情报语言学论文集,北京图书馆出版社,1999(5)
    60 刘源等编著.信息处理用现代汉语分词规范及自动分词方法.清华大学出版社,广西科学技术出版社,1994
    61 祁延莉.计算机辅助数据库标引技术的现状.图书与情报,1997(2)
    62 赵云志.统计分析法自动标引的改进.情报学报,2000,19(4),333-337
    63 李朝阳.经济文献数据库计算机标引研究.南京农业大学硕士毕业论文,2000,6
    64 Pao M L. Automatic Text Analysis Based on Transition Pjenomena of Word Occurences. Journal of the American Society for Information Science. 1978(29)
    65 张琪玉.情报语言学基础.武汉大学出版社,1997,9
    66 刁倩,张惠惠,王永成,何骥.中文文献自动分类中的知识库构造及其仿人算法.情报学报,2000,19(3),248-253
    67 侯汉清,黄刚.电子计算机与文献分类.计算机与图书馆,1982(1)
    68 宋明亮.汉语词汇字面相似性原理与后控制词表动态维护研究.情报学刊,1996,(4)
    69 吴起立,李朝晖.题名自动分类标引探讨.情报学报,1999,18(1),33-36
    70 李朝阳,侯汉清.汉语科技同义词字面相似度测试.<图书馆杂志>1998理论学术年刊,1998
    71 金义红.汉语同义词的计算机辅助识别系统初探.南京农业大学信息管理系本科毕业论文,1996,6
    72 吴志强.经济信息检索后控制词表的研制.南京农业大学硕士毕业论文,1999(6)
    73 查贵庭.经济新闻自动标引系统的研究.南京农业大学硕士毕业论文,2000,6
    74 周全明.全文检索系统后控制技术研究.空军政治学院硕士论文,1995
    75 网胜工作室编著.PHP4.0程序设计.北京希望电子出版社,2000,8
    76 张广钦,吴辉.两种受控语言间兼容转换问题研究.情报理论与实践,1997,6(20)
    77 韩客松,王永成,滕伟.Web页面中文文本主题的自动提取研究.情报学报,2001,20(2),217-223
    78 赖茂生,王延飞编著.计算机情报检索.北京大学出版社,1993,3
    79 Vizine-Goetz, Diane. Online Classification: Implications for Classifying and Document[like Object]. Retrieval http://orc.rsch.oclc.org:6109/dvgisko.htm

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700