基于词典的智能分词系统的研究与实现

作者：蔡灿民
论文级别：硕士
学科专业名称：计算机软件与理论
中文关键词：自动分词 ; 智能词典 ; 中文信息处理 ; 特征词识别
英文关键词：word segmentation ; intelligent dictionary ; Chinese information processing ; identification of characteristic words
学位年度：2008
导师：吴晟
学科代码：081202
学位授予单位：昆明理工大学
论文提交日期：2008-03-05

摘要

中文自动分词是中文信息处理的关键技术,同时也是中文信息处理的第一道工序,它是自然语言理解、自动翻译、电子词典、文本分类等中文信息处理的基础性工作。随着中文信息技术的不断发展,中文自动分词已经成为中文信息自动处理的“瓶颈”。因此,中文自动分词技术目前是我国计算机科学研究的重要课题之一。
     目前分词方法主要有三类:一类是基于字符串匹配的机械分词法,也称词典法;另一种是基于统计语言模型的分词方法;还有一种是建立在知识库及语义规则基础上的分词方法,也被统称作人工智能法。这些分词方法都有其各自的优缺点:机械分词法是最常用的一种方法,虽然现在的机械分词法中运用了各种技术,但还是不能有效地解决未登录词识别和歧义处理问题;基于统计语言模型的分词方法不能有效地提高分全率以适应一般中文信息处理的应用;人工智能法中无法解决规则库和语义在应用方面的问题,目前基本处于研究阶段。
     本文针对各种自动分词方法中出现的这些问题,利用基于统计语言模型的分词方法能识别第一类未登录词及处理部分歧义的优点来弥补基于字符串匹配的机械分词法未登录词识别及部分歧义处理的缺陷,提出了具有自学习机制的智能词典的概念,初步地构架了智能词典的基本模型,对基于智能词典的汉语自动分词系统的可行性在理论上进行了论证,并详细地论述了基于智能词典的分词系统的基本原理和实现过程。最后,对本课题进行了总结,分析了本系统的不足,并对课题将来的发展作了展望。
Chinese automatic word segmentation is a key technology of Chinese information processing,which is basic work of NLP,automatic interpretation,digital dictionary,text classify and so on.With the growth of Chinese information technology continually,the Chinese automatic word segmentation had became the neck-bottle of Chinese information automatic processing,so the technology of Chinese automatic word segmentation is one of important task at the present time.
     There are three methods of the word segmentation at present.The first id is mechanical word segmentation that based on matching of character of string;the second method is based on mode of statistics and language;the other is artificial intelligent,which is based on repository and semantic rule.These methods of segmentations have their advantages and disadvantages.Mechanical word segmentation can' t resolve the new words and processing of different meanings.The segmentation based on mode of statistics and language can' t improve accuracy of word segmentation and adapt the usual application.The segmentation method based on artificial intelligent can' t resolve the problem of rule warehouse,and the word segmentation method is studying now.
     This paper aims at these problems in process of segmentation,and makes use of advantages of the word segmentation method based on mode of statistics and language for remedying the disadvantage of mechanical word segmentation.This put forward the conception of intelligent dictionary, which could extract new word and resolve any problems of different meanings.

引文

[1]黄德根,孙迎红.中文地名的自动识别.计算机工程,2006,3:220-222.
    [2]黄德根,岳函,李丽双.开放式汉语自动分词的学习机制.小型微型计算机系统,2005,26(8):1406-1410.
    [3]刘晓英.汉语自动分词研究的发展趋势.高校图书馆工作,2005,25(4):25-28.
    [4]瞿锋,陈纪元.汉语自动分词算法综述.福建电脑,2006,4:23-25.
    [5]刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望.计算机工程与应用,2006,42(3):157-177.
    [6]Kok-Wee Gan.A statistically emergent approach for language processing:application to modeling context effects in ambiguous Chinese word boundary perception.Computational Linguistics,1996,22(4):531-553.
    [7]邱均平,文庭孝.汉语自动分词与内容分析法研究.情报学报,2005,24(30):309-317.
    [8]王彩荣,黄玉基.汉语自动分词软件评价方法优化,微处理机,2006,27(6):61-63,66.
    [9]张培颖,李村合.一种中文分词词典新机制-四字哈希机制.微型电脑应用,2006,22(10):35-36,55.
    [10]吴绍根.汉语自动分词模式自动机构造研究.现代图书情报技术,2006,5:47-49.61.
    [11]傅赛香,袁鼎荣,黄柏雄等.基于统计的无词典分词方法.广西科学院学报,2002,18(4).
    [12]BrownP,Della Pietra V,DeSouza P,et al.Class-Based n-gram Models of natural language.Computational Linguistics,18(4):567-480.
    [13]邓曙光,刘金铸.基于自学习机制汉语自动分词系统研究.平原大学学报,2006,23(1):87-89.
    [14]徐华中,徐刚.一种新的汉语自动分词算法的研究和应用.计算机与数字工程,2006,34(2):135-138.
    [15]文庭孝.汉语自动分词研究进展.图书与情报,2005,5:54-63.
    [16]梁刚.基于机械分词与统计学的新词识别研究.情报理论与实践,2005,28(5):475-477.
    [17]刘慧,马军,雷景生.基于词频的权值计算在邮件过滤算法中的应用.计算机工程,2006,32(17):60-62,55.
    [18]岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用.情报杂志,2005,24(4):55-57,60.
    [19]文庭孝,侯经川,邱均平等.汉语自动分词新思维:无词典切分.情报杂志,2005,24(2):2-4.
    [20]张春霞,郝天永.汉语自动分词的研究现状与困难.系统仿真学报,2005,17(2):138-143,147.
    [21]韩维良.汉语自动分词系统中切分歧义与未登录词的处理策略.青海师范大学学报,2004,2:31-34.
    [22]TANHong-ye,ZHENGJiaheng,LTUKaiying.Reaserch on Method of Automatic Recognition of Chinese Place Named Based on Transformation.软件学报,2001.12(11).
    [23]朱殉,中文分词系统的研究[硕士学位论文],华中师范大学,2004.
    [24]王彩荣.汉语自动分词专家系统的设计与实现.微处理机,2004,25(3):56-57.60.
    [25]王彩荣,李晓毅,黄玉基.汉语自动分词系统的评价.微处理机,2003,5:28-30.
    [26]马光志,李专.基于特征词的自动分词研究.华中科技大学学报,2003,31(3):60-62.
    [27]李家福,张亚非.基于EN算法的汉语自动分词方法.情报学报,2002,21(3):269-272.
    [28]张琪玉.自动抽词与自动分词.图书馆杂志,2002,21(3):13-14.
    [29]何炎祥,冯夏根。演化算法在中文自动分词中的应用.计算机工程,2002,28(5):80-82.
    [30]林绮屏.基于词形的最佳路径分词算法.华南师范大学学报,2002,4:81-84.
    [31]郑家恒,李文花.基于构词法的网络新词自动识别初探.山西大学学报,2002,25(2):115-119.
    [32]李振星,徐泽平.全二分最大匹配快速分词算法.计算机工程与应用,2002,38(1):106-109.
    [33]孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学,2001,3(1): 22-32.
    [34]杨文峰,陈光英.基于PATRICIA tree的汉语自动分词词典机制.中文信息学报,2001,5(3):44-49.
    [35]黄德根,杨元生.基于统计方法的中文姓名识别.中文信息学报,2001,15(2):31-37,44.
    [36]赵铁军,吕雅娟.提高汉语自动分词精度的多步处理策略.中文信息学报,2001,15(1):13-18.
    [37]金翔宇,孙正兴.一种中文文档的非受限无词典抽词方法.中文信息学报,2001,15(6):33-39.
    [38]黄Kun,符绍宏.自动分词技术及其在信息检索中应用的研究.现代图书情报技术,2001,3:26-29.
    [39]宣照国,党延忠.无词典中文特征词自动抽取的桥接模式滤除算法.计算机应用研究,2007,24(7):168-170.
    [40]李正伟,汉语分词与词典自学习系统.内蒙古煤炭经济,2001,5:22-24.
    [41]孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词,计算机学报,2004,27(6):736-742.
    [42]阳爱民,彭富春.无词典的中文文档集特征词抽取方法.中国包装工业,2002,6:148-149.
    [43]付德宇代成琴.一个面向文本分类的中文特征词自动抽取方法.计算机工程与应用,2006,42(15):165-167.
    [44]陈凯,朱钰.机器学习及其相关算法综述.统计与信息论坛,2007,22(5):105-112.
    [45]万乐,刘万春.娄别特征词权重加权文本分类方法.军民两用技术与产品,2006,3:38-39,45.
    [46]王笑曼.基于Bigram的特征词抽取及自动分类方法研究.计算机工程与应用,2005,41(22):177-179,210.
    [47]吴卫华,袁宁,周劲等,基于文本集密度的特征词选择与权重计算方法.计算机与数字工程,2005,33(3):11-13,52.
    [48]曹慧.基于AMTW算法的文本特征词权值计算.山东大学学报(工学版),2004,34(3):92-95.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700