基于模板的英蒙机器翻译系统的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
机器翻译(Machine Translation)是利用计算机把一种自然语言转换成另一种自然语言的过程。它是同时属于自然语言理解与处理、计算语言学以及人工智能领域的边缘学科。目前情况下,相对于英语和汉语而言蒙古语作为目标语言或者源语言的机器翻译理论还在初级阶段,没有一个比较成熟的理论和商品化的翻译系统。本课题是由国家自然科学基金项目——英蒙机器翻译研究课题资助。英蒙机器翻译研究是一项基础性研究工作。它对蒙古文的信息化和民族地区与其他地区之间的文化交流具有很大的推动作用。
     本文首先介绍了机器翻译的发展史和背景知识,详细阐述了英-蒙机器翻译的模板匹配算法、蒙古文生成模型。
     对于一些语法结构完整的简单句的翻译,本文提出了基于规则的翻译方法。通过英语语法分析得到英语的语法树,然后按照英语和蒙古语之间的转换规则把英语语法树转换成蒙古语语法树,再从蒙古语语法树生成符合蒙古语语法的蒙古文句子。
     对于常用的复合句或一些固定短语的翻译,本文提出了基于模板的翻译方法。利用现有的模板进行模板匹配,得到比较准确的译文。在初级阶段,人工生成模板,而系统下一步目标为,通过基于词典的机器学习之后从现成语料库中自动提取模板。
     对于模板和规则都不能正确处理的句子的翻译,本文提出了基于HMM模型的蒙古文生成方法。基于HMM模型的蒙古文生成方法采用词典驱动模型和HMM模型从单语料生成蒙古文译文。
Machine translation is the procedure which uses the computer to transform a kind of natural language into another kind. It is an edge subject of natural language understanding and dealing, computational linguistics and artificial intelligence field. Under the situation at present, compared with English and Chinese, Mongolian is also in primary stage of the machine translation theory as a goal language or a source language. There isn't a mature theory and commercialized translation system about Mongolian. This subject is first subject for research of English-Mongolian machine translation sponsored by the China's natural science foundation project. The English-Mongolian machine translation study is a basic research work that has very great impetus to the cultural exchanges between minority area and other areas and to the informationization of Mongolian.This paper introduces development history and background knowledge of machine translation at first, and then explain template match algorithm of English-Mongolian machine translation and Mongolian generating model in detail.To the translations of some simple sentences, this paper has been put forward a rule-based translation method. Through English analyze, get grammar tree of English, change English grammar tree into Mongolian grammar tree according to English-Mongolian conversion rule, and then produce the Mongolian sentence which accords with Mongolian grammar from Mongolian grammar tree.To the translations of commonly used compound sentences or some regular phrases, this paper has been put forward the translation method based on template. Use existing template to match template and get very accurate translation. In primary stage, template was produced artificially; the further perfection goal of system is to draw the template automatically from the available language material through dictionary-based machine study.To the translations of sentences that neither template nor rule can translate correctly, this paper has been put forward Mongolian generating algorithm based on HMM. It produces Mongolian translation from the single language material through use of dictionary-based model and Hidden Markov Model.
引文
[1] 赵铁军等,机器翻译原理,哈尔滨工业大学出版社,2000年6月第一版。
    [2] 姚天顺,自然语言理解,清华大学出版社,2002年10月第二版。
    [3] 青格尔泰,现代蒙古语语法,内蒙古人民出版社,1991年5月第一版。
    [4] 冯志伟,自然语言机器翻译新论,语文出版社,1994年。
    [5] 敖其尔,从英文到蒙古文的机器翻译,内蒙古大学学报,1988年第三期。
    [6] 雪艳,文化,那顺乌日图,蒙古语语料库综述,见那顺乌日图等主编,中国少数民族多文种信息处理研究与进展,内蒙古大学中国中文信息学会,2004年8月,31-38页。
    [7] 淑琴,那顺乌日图,面向EBMT系统的汉蒙双语语料库的构建,见鲍怀翘等主编,少数民族语言信息技术研究进展,中国科学院自动化所,2004年4月,156-163。
    [8] 刘群,基于模板的统计翻译模型研究及汉英机器翻译系统实现,[博士学位论文],北京大学计算语言学研究所。
    [9] 柏晓静,常宝宝等,构建大规模的汉英双语平行语料库,见黄河燕主编,机器翻译研究进展,电子工业出版社,2002年11月,124-131。
    [10] 冯志伟,机器翻译研究,中国对外翻译出版公司,2004年1月,第一版。
    [11] 冯志伟,机器翻译的现状和问题,《中文信息处理若干重要问题》,科学出版社,2003年。
    [12] 刘群,詹卫东等,一个汉英机器翻译系统的计算模型与语言模型,见吴泉源等主编,第三届全国智能接口与智能应用学术会议,智能计算机接口与应用进展,电子工业出版社,1997年8月,第253-258页。
    [13] 俞士汶等,机器翻译译文质量自动评估系统,中国中文信息学会1991年会论文集,1991年,314-319。
    [14] 那日松,敖其尔,吉日木图,基于统计的蒙古语语料库词性标注的研究,见那顺乌日图等主编,中国少数民族多文种信息处理研究与进展,内蒙古大学中国中文信息学会,2004年8月,135-139页。
    [15] 索南当周等,基于规则和语料相结合的英藏机器翻译系统的设计模型,见那顺乌日图等 主编,中国少数民族多文种信息处理研究与进展,内蒙古大学中国中文信息学会,2004年8月,166-173页。
    [16] 王斯日古楞等,英-蒙机器翻译系统中机器词典的建立,内蒙古大学学报(自然科学版),2002年5月第33卷。
    [17] 德力格尔,英语语法,内蒙古文化出版社,1999年9月第一版。
    [18] Tom M. Mitchell著,曾华军 张银奎等译,机器学习,机械工业出版社,2003年1月。
    [19] 王辉、王仁华,结合汉语语音学特点的大词汇词组语音识别,语音识别与合成,第三届全国人机语音通讯学术会议论文集,重庆,1994年10月。
    [20] 王斯日古楞等,英蒙机器翻译系统的设计,内蒙古大学学报(自然科学版),2003年5。
    [21] 鲁松、白硕等,基于向量空间模型的有导词义消歧,计算机研究与发展,2001,662-667页。
    [22] 戴新宇等,机器翻译研究现状与展望,南京大学学报,2003年。
    [23] 董振东,语义关系的表达和知识系统的建设,语言文字应用,1998,76-82页。
    [24] 白拴虎,《汉语词性自动标注系统研究》,清华大学计算机科学与技术系硕士学位论文,1992年。
    [25] 洪忻,机器翻译的发展与前景,软件世界,1997年5月,6-8页。
    [26] R. E. Donovan, A hidden Markov-model-based trainable speech synthesizer, P. C. Woodland, Computer speech & language, 13 (3), p. 223, jul 1999.
    [27] Frederking, Nirenburg. Three Heads are Betterthan One, In proceeding of ANLP-94, Germany, 1994。
    [28] R. Brown, Frederking. Applying statistical English language modelling to symbolic machine translation. TMI'95, Leuven, Belgium, 1995, 221-239页。
    [29] Yarowsky, D. Decision lists for lexical ambiguity resolution. An application to accent restoration in Spanish and French. Inproceedings of the 32nd annual meeting of the association forcomputational linguistics, ACL, 1994。
    [30] Satoshi, Francis, Yamato. A ybrid rule and example-based method for machine Translation. NLPRS-97, 1997。
    [31] Escudero, L. Marquez and G. Rigau, Boosting Applied to Word Sense Disambiguation. In Proceedings of ECML, 2000.
    [32] Pedersen, T. and Bruce, R. Knowledge lean word sensedisambiguation. In proceedings of the 15th National Conferenceon Artificial Intelligence, AAAI, 1998.
    [33] Mihalcea, R and Moldvan, I. An automatic method for generating sense tagged corpora. In Proceedings of the 16th National Conference on Artificial Intelligence, AAAI. 1999.