基于神经网络的拼音汉字转换
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
拼音汉字转换是自然语言处理的重要内容,在语音输入,语音识别,汉字输入等领域都有重要的应用。本系统的应用背景是中国盲文系统中盲文与汉字的相互转换模块。盲文和拼音有很简单的对应关系,所以盲文到汉字的转换就是拼音与汉字的转换。自然语言处理有基于规则和基于语料库统计两种方法。本文提出的基于神经网络的方法是基于语料库统计的方法的一种,这类方法比基于规则的方法简单,同时也具有很好的效果,能够较好的处理语言的远距离关联和深度递归。本文首先分析了拼音汉字转换的过程和原理,指出拼音汉字转换的重点在于同音字的选择,然后考察了拼音汉字转换的现有的几种方法,重点考察了基于隐马尔可夫模型的转换方法,指出了该方法的一些不足,然后针对这些不足,引入了神经网络的方法,说明了利用神经网络的模式记忆和联想能力来实现拼音汉字的转换的原理。提出了基于神经网络的音字转换系统的结构,设计并实现了基于BP网络和基于RNN网络的拼音汉字转换系统,讨论了运用反向传播算法(BP)算法和随时间演化的反向传播算法(BPTT)对这两种网络进行训练的方法。设计了输出增量训练算法来实现对网络的无监督训练,提出了神经网络和viterbi相结合的拼音汉字转换算法。并说明了系统各模块的功能和实现。对系统实现中的难点和重点进行了讨论。最后讨论了试验结果,对几种方法的转换特性,正确率,时间空间效率和其中的原因进行了讨论。说明了采用基于神经网络的方法模拟高阶的隐马尔可夫模型实现的意义,并提出了以后的改进方向。
The conversion of PINYIN to Chinese characters is an important content of the NLP (Natural Language Processing). This paper bases on the research of Braille-Chinese conversion. The Braille can easily transform to PINYIN, so the translation of Braille and Chinese is actually PINYIN-Chinese conversion. Basically there are two NLP methods - Rule Based Method and Statistic Based Method. And the system of this paper belongs to the Statistic Based Method. It is more easily to implement. We first discuss the theory of PINYIN ?Chinese Conversion and then review some methods in use, Especially the method based on Hidden Markov Model. We discuss the disadvantage of the method then introduce a PINYIN-Chinese conversion method based on Artificial Neural Network (ANN). We give the structure of the system, and we design and implement two systems. One uses BP network and another uses Recurrent Neural Network (RNN). And then we discuss BP (back propagation) algorithm and BPTT (back propagation through time) algorithm, which is used to train the two networks. We also show an algorithm called output-increase to perform the training. And we give an ANN-viterbi mixed algorithm to do the conversion. The function of each module is showed. And then keystone of the system is discussed. At last we analyze the result of the experiment and discuss the way of improvement.
引文
[1]俞士汶,计算语言学简介,中华读书报,1998.3.4P6
    [2]俞士汶,关于语言信息处理技术的展望,计算机世界1997.1127
    [3]周强,基于语料库和面向统计学的自然语言处理技术介绍,计算机科学,1995,22(4),36—40
    [4]周春耕,张秉权,黄河燕,基于混合语言模型的盲汉机器翻译系统的研究与实现,计算机工程与应用,2003,39(4):127—131.
    [5]徐秉铮,等,神经网络理论与应用[M],广州:华南理工大学出版社,1994
    [6]网络,matlab简介, http://www.matwav.com/ruanjian/ruanjian000001.html
    [7]章森,宗成庆,陈肇雄,黄河燕,语句拼音—汉字转换的智能处理机制分析,中文信息学报,1998,12(2):37—43.
    [8]丛爽,面向MATLAB工具箱的神经网络理论与应用,合肥:中国科学技术大学出版社,1998.11
    [9]网络,数字神经网络系统,http://youngfan.com/nn/index.html
    [10]Werbos P J, Backpropagation through time: What it does and how to do it. Proceedings of the IEEE, 1990, 78(10): 1550-1560
    [11]Jan Aarts, WillenMeijs(eds.), Corpus Linguistics: Theory and Practice. Amsterdam: Rodopi, 1990.
    [12]Fredric M. Ham, Ivica Kostanic, Principles of Neurocomputing for Science and Engineering, 北京:机械工业出版社 2003.7
    [13]AbhijitS.Pandya,神经网络模式识别及其实现,北京:电子工业出版社,1999.6
    [14]蒋宗礼,人工神经网络导论,北京:高等教育出版社,2002.12
    [15]江铭虎,朱小燕,基于多种知识的盲文翻译的研究清华大学学报自然科学版,2000.9
    [16]闻新,MATLAB神经网络应用设计,科学出版社,2000,9
    [17]王博文,苏国辉,用于汉字拼音输入的类trie树及其改进,小型微型计算机系统.2002,23(6).759—761
    [18]殷峰,何克抗,语句级拼音-汉字转移系统的设计与实现,计算机研究与发展.1997,34(5).340—345
    
    
    [19]马少平,夏莹,基于词词同现概率的拼音汉字自动转换方法,电子计算机与外部设备.1997,21(3).,16—19
    [20]张瑞强,王作英,带拼音纠错的汉语音字转换技术,清华大学学报:自科[17]版.1997,37(10).9—11
    [21]吴军,王作英,一种基于语言理解的输入方法——智能拼音输入方法,中文信息学报.1996,10(2).56—61
    [22]万建成,可分隔动词及其在拼音-汉字输入中同音词识别的应用,中文信息学报.1992,6(4).52—56
    [23]潘凌云,杨长生,拼音汉字计算机自动转换系统,计算机学报.1990,13(4).271-276
    [24]王晓龙,王开铸,音字转换智能系统的设计和实践,中文信息.1990(2).9-12,
    [25]何振亚,顾明亮,基于HMM与RBF的混合语音识别新方法,数据采集与处理.1999,14(2).153-156
    [26]李广琼,蒋加伏,关于对BP神经网络算法改进的研究,常德师范学院学报:自然科学版.2003,15(2).31-33,56
    [27]段红梅,汪军等,隐马尔可夫模型在语音识别中的应用,工科数学.2002,18(6).-16-20
    [28]王朋,陈树中,基于混合模型HMM/RBF的数字语音识别,计算机工程.2002,28(12).-136-138
    [29]欧嘉致,陈凯江等,基于NN/HMM混合模型的汉语地名识别系统,计算机工程与应用.2002,38(23).220-222,228
    [30]孙光民,董笑盈,基于神经网络的汉语孤立词语音识别,北京工业大学学报.2002,28(3).289—292
    [31]陈国兴,贺苏宁,说话人识别VQ、HMM和NN方法浅析,电信技术研究.2002(2).14—18
    [32]邓伟,混合语音识别系统的一种新的简化神经网络结构,数据采集与处理.2002,17(1).25—28
    [33]朱小燕,王昱等,基于循环神经网络的语音识别模型,计算机学报.2001,24(2).213—218
    [34]邓伟,赵劳椿,隐马尔可夫模型的一种有区分力的反向传播训练方法,自动化学报.2000,26(4).492—498
    [36]姚天顺,自然语言理解,北京:清华大学出版社,1995
    [37]陈肇雄,机器翻译研究进展,北京:电子工业出版社,1992
    
    
    [38]黄昌宁,张小凤,自然语言处理技术的三个里程碑,外语教学与研究2002 34(3)180-18
    [39]黄昌宁,语料库语言学,北京 商务印书馆 2002.
    [40]Williams R J, Peng J, An efficient gradient-based algorithm for on-line training of recurrent network trajectories. Neural Computation, 1990, 2: 490~501

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700