用户名: 密码: 验证码:
Internet中文智能搜索引擎汉语自动分词系统设计
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文详细描述了中文智能搜索引擎中汉语自动分词模块的设计方案与实现方法。
     本文从目前发展迅速的搜索引擎技术的综述出发,结合中文智能搜索引擎技术的发展现状以及具体应用情况出发,根据项目要达到的目标逐步引出课题中心——汉语自动分词模块的设计与实现。然后从理论上分析和比较了目前的各种汉语自动分词方法,对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。根据课题应用具体现状,阐述了适合于本课题的分词方法和分词模块预期达到的性能指标。最后详细描述了汉语自动分词模块的具体设计,包括总体设计以及各模块设计等,同时给出了一些关键性的例程说明和程序设计的关键点总结。
     本文所包含的内容完全是面向应用的,具体的技术选择与整体的设计思想完全根据实际的应用需求而定,采用的都是比较成熟的技术,实现了理论联系实际。另外,本文所描述的汉语自动分词模块已可以在基于命令行的情况下,进行分词处理。
The dissertation gives a minute description of the Chinese automatic segmentation model and the way to apply it in the Chinese intelligence search engine.
    Based on the summary of the nowadays rapid development search engine technology,combined with the present condition of the Chinese intelligence search engine technology and its practical application,the focusof this dissertation -the design of the Chinese automatic segmentation model and its application is put forward. Then the author analyses and compares the various ways of nowadays Chinese automatic segmentation theoretically,summarizes the present condition and tendency of the development of the automatic segmentation generally. The way to segmentation and the anticipated functional criterion that are suited to this subject are illustrated,at last the concrete design of the Chinese automatic words segmentation are described,including the overall design and the design of each model. Meanwhile,some key program examples and the key conclusion about the program plan are given.
    The contents in this dissertation are practical and the selection of the concrete technology and the idea of the overall design are all decided by the practical need,the maturer technology is used to realize the combination of theory with practice. Besides these,the model of the Chinese automatic words segmentation describedin this dissertation can be used to deal with the words segmentation in the situation of command lines.
引文
1.Internet网络信息检索——原理 工具 技巧,清华大学出版社,1999
    2.李明智,中文搜索引擎的现状问题及对策,大学图书馆学报,1998.6(16)
    3.李爱红,网络搜索引擎的比较研究,信息技术与产品,1999.1
    4.新一代搜索引擎,网络与信息,2000,3
    5.赵一唯,王合珍,李振东,WWW信息检索综述,南京大学学报(自然科学),2001,2
    6.梁南元,书面汉语自动分词系统——CDWS,中文信息学报,1987,2
    7.刘开瑛,李国臣,对现代汉语自动分词系统中几个问题的讨论,计算机开发与应用,1988,5
    8.揭春雨,刘源,梁南元,论汉语自动分词方法,中文信息学报,1989,1
    9.何克抗等,书面汉语自动分词专家系统设计原理,中文信息学报,1991,2
    10.傅永和,中文信息处理,广东教育出版社,1999,12
    11.冯志伟,中文信息处理与汉语研究,北京:商务印书馆,1992.12
    12.揭春雨等,汉语自动分词实用系统CASS设计和实现,中文信息学报,1990,4
    13.张国煊等,快速书面汉语自动分词系统及算法设计,计算机研究与发展,1993,1
    14.贺银云等,一种基于词链库的分词方法,计算机杂志,1991(1—3)
    15.梁南元,书面汉语自动分词综述,计算机应用与软件,1987,3
    16.贺前华等,汉语分词神经网络方法模拟实现,中文信息,1992,3
    17.尹风,林业平,情报神经网络的设计与应用,情报学报,1996,3
    18.马晏,基于评价的汉语自动分词系统的研究与实现,语言信息处理专论,北京:清华大学出版社,1996
    19.王伟强等,Internet上的文本数据挖掘,计算机科学,2000,1
    20.郑德权,汉语自动分词最大匹配算法的改进,中文信息处理 1998,1
    21.罗为,书面汉浯自动分词方法的研究,计算机工程,1989,6
    22.王永成等,中文词的自动处理,中文信息学报,1990,8
    
    
    23.茂松,邹嘉彦,汉语自动分词中的若干理论问题,语言文字应用,1995(4)
    24.揭春雨,论自动分词方法,首届全国计算机语言学学术会议论文,1988.5
    25.何克抗,徐辉,孙波,书面汉语自动分词专家系统设计原理,中文信息学报,1991(4)
    26.黄萱菁,郭以昆,吴立德,基于统计方法的中文姓名识别,中文信息学报,1999(7)
    27.尹锋,林亚平神经网络汉语自动分词技术,软件世界,1996,12
    28.严蔚敏,吴伟民,数据结构,北京:清华大学出版社,1992
    29.戴明坚,书面汉语自动分词技术与实现,计算技术与自动化,1990,3
    30.刘挺等,最大概率分词问题及其解法,哈尔滨工业大学学报,1998,12
    31.王晓龙,自然语言理解中的音字流的自动分词,中文信息学报,1991,5
    32.王晓龙,最少分词问题及其解法,北京科学通报,1989,13
    33.刘源,信息处理现代汉语分词规范及自动分词方法,北京清还大学出版社、广西技术出版社,1995
    34.骆正清等,一种改进的MM分词方法的算法设计,中文信息学报,1992,2
    35.黄祥喜,书面汉语自动分词的语境相关方法,计算机应用与软件,1991,6
    36.姚天顺等,基于规则的汉语自动分词系统,中文信息学报,1990,1
    37.黄祥喜,书面汉语的计算机分词与理解,吉林大学博士学位论文,1989,3
    38.尹宝生等,人机接口的智能化设计,中文信息学报,2000,2
    39.刘开瑛等,汉语自动分词及歧义组合结构的处理,中文信息学报,1988,3
    40. Winograd, T.: 《Language as a Cognitive Process》 (Volume 1: Syntax Addison---Wesley) 1983
    41. Bruce, B: Case Systems for Natural Language,《Artificial inteligence》1975,6
    42. Woods, W.A : Cascaded ATN Grammars, 《American Journal of Computational Linguistics》, 1980,6

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700