日蒙机器翻译及相关技术研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文在借鉴以往机器翻译研究的理论和方法的基础上,充分利用日语和蒙古语在语法结构上极为接近的特征,研究实现了一套日蒙机器翻译系统。在系统资源方面,我们利用日本每日报2002年版,随机选择了农、林、牧、水相关报道800多篇建立了语料库,在此基础上编写了日蒙词干词典。在本文研究中,引用日语新语法即派生文法,研发了基于派生文法的日语句法分析器。为了提高日蒙机器翻译的性能,本文从以下几个方面着重进行了研究:
     (1)为了充分利用派生文法与蒙古语语法的相似特征,有必要把基于传统语法的日语词法分析器分析出来的结果重新分析,使其成为具有派生文法中所定义的附加成分形式。为此,研发了基于派生文法的附加成分分析器,实现了从基于传统语法词法分析到基于派生文法词法分析的转换。
     (2)提出了基于蒙古语语序的日语句节调序方法,解决了动词句节翻译中出现的语序错误问题。首先制定了调序规则,然后以此为据进行调序,为形成蒙古语句节自然顺序提供了有力保障。与此同时,采取了相应措施解决了同形附加成分的区分和サ变名词和サ变动词翻译难问题。
     (3)对日语功能词语义分析及其蒙古语翻译问题提出了一些看法,在一定范围内解决了功能词翻译难题。
     (4)制定句法分析规则,研发了基于派生文法的日语句法分析器。克服了日语句法分析器KNP在一个句节中出现开括号、闭括号、逗号、句号等对符号的处理、句节翻译以及整个句子的翻译带来的负面影响,并实现了日蒙句法分析及转换。
     我们在上述研究的基础上实现了日蒙机器翻译系统并进行了评测实验。以测试数据库的30个新闻报道作为对象,用本系统进行了翻译,对其生成的187个句子(评均词数为27.1个)进行了评价。正确翻译句子为150个,准确率达到了80.2%。在句法分析测试中,针对同语料库的310个新闻报道的1519个句子进行自动句法分析,其结果未出现出误。
In this paper, we study and implement a Japanese-Mongolian machine translation system(MTS) in light of theory and methods of the previous MTS research and the similar structures between Japanese and Mongolian languages. In the aspect of the system resources, we construct automatically a corpus which covers800reports on agriculture, forestry, animal husbandry, water conservancy from Japanese Every Day Newspaper in2002. Based on this corpus, we also compiled a Japanese-Mongolian stem dictionary. In this paper, we introduced a new Japanese grammar, that is, the derivational grammar and developed a Japanese syntactic parser based on the derivational grammar. In order to improve our MTS, we do some study and experiments as follows:
     (1) In order to make use of the similar features between the derivational grammar and Mongolian grammar, we change the results of Japanese morphological analyses based on traditional Japanese grammar to the additional components defined in the derivational grammar. Hence, we developed an analyzer based on the derivational grammar.
     (2) put forth the method of changing Japanese clause order based on Mongolian word order and solve the problems in verb clause translation. At first, we wrote word order rules, then, according to the rules, changed the orders and got the natural clauses of Mongolian language. At the same time, we also solve the problems of(?) nouns and (?) verbs.
     (3) We put forth some view point on the semantic analyses of Japanese function words and its Mongolian translation, as a result, solved the problems of function words translation.
     (4) We developed a Japanese syntactic parser based on the derivational grammar. We wrote some syntactic rules and the difficult problems in Japanese syntactic parser KNP, for example, the related problems of brackets, comma, full stop.
     Based on the above research works, we implement a Japanese-Mongolian translation system and did some evaluations. We translated the30newspaper reports and evaluated187corresponding translated sentences (the average words is27.1). As the result, the results of translations for the150sentences are correct, which means the accuracy is80.2%. In the evaluation of syntactic parsing, we analyzed1519sentences in the same310reports. There is not any wrong translation in the result.
引文
[1]宗成庆,统计自然语言处理,清华大学出版社,2008.5,pp,202。
    [1]冯志伟,澄清对机器翻译的一些误解(论文提要),现代语文,2005.1。
    [2]那顺乌日图,刘群,巴达玛敖德斯尔,关于汉蒙机器辅助翻译系统,阿尔泰学报第21,汉城,2001年。
    [3]侯宏旭,刘群,那顺乌日图,基于实例的汉蒙机器翻译,中文信息学报,2007.第4期,pp.65-72。
    [4]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年。
    [5]百顺,日本语から蒙古语への机械翻译の研究,图书馆情报大学修士学位论文,2004年。
    [1]敖其尔,从英文到蒙文的机器翻译,内蒙古大学学报(哲社版),1988年第三期。
    [2]巴达玛敖德斯尔,面向机器翻译的汉蒙短语转换规则研究,内蒙古教育出版社,2005年。
    [3]侯宏旭,刘群,那顺乌日图,基于实例的汉蒙机器翻译,中文信息学报,2007.第4期,pp.6572。
    [4]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年,pp.14-29。
    [5]吉日木图,基于模板的英蒙机器翻译系统的研究,内蒙古大学硕士学位论文,2005。
    [6]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年。
    [1]那顺乌日图,刘群,巴达玛敖德斯尔,关于汉蒙机器辅助翻译系统,阿尔泰学报第21,汉城,2001年。
    [2]刘群等,汉英机器翻译的难点分析,中文信息处理国际会议论文集,北京:清华大学出版社,1998年,pp.507514。
    [1]侯宏旭,刘群,那顺乌日图,基于实例的汉蒙机器翻译,中文信息学报,2007.第4期,pp.65-72。
    [2]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年,pp.68。
    [1]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年,pp.14-29。
    [1]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年。
    [1]王斯日古楞,英蒙机器翻译系统的设计与实现,内蒙古大学硕士学位论文,2002年。
    [1]吉日木图,基于模板的英蒙机器翻译系统的研究,内蒙古大学硕士学位论文,2005。
    [1]百顺,日本语から蒙古语への机械翻译の研究、图书馆情报大学修士学位论文、2004年。
    [1]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年。
    [1]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年。
    [1]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年。
    [1]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年,pp.15。
    [2]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年,pp.15。
    [1]清格尔泰,蒙古语语法,内蒙古人民出版社,1991年,pp.133-136。
    [1]清格尔泰,蒙古语语法,内蒙古人民出版社,1991年。
    [1]清格尔泰,蒙古语语法,内蒙古人民出版社,1991年,pp.120-136。
    [1]确精扎布,蒙古语编码,内蒙古大学出版社,2000.8。
    [2]那顺乌日图,蒙古语信息处理论文集,2006.6,pp.52。
    [3]确精扎布,蒙古语编码,内蒙古大学出版社,2000.8,pp.187。
    [4]确精扎布,蒙古语编码,内蒙古大学出版社,2000.8,pp.101-105。
    [5]确精扎布,蒙古语编码,内蒙古大学出版社,2000.8,pp.199。
    [1]Bai shun.Japanese-Mongolian Verbal Phrase Machine Translation System Based on the Derivat ional Grammar(ISTP检索)Recent Advance of Chinese Computing Technologies.COLIP Publications,Singapore.2008-3-10,pp.350-353.
    [3]益同隆志,田窿行则,基础日本捂文法,くろしお出版,1992年。
    [4]井田哲,计算モデルの基磋理论,岩波书店,1991年。
    [5]清瀬义三郎则府,《日本语文法新论-派生文法序说》,东京:桜枫社,1989年。
    [6]林知己等,情报处理と统计数理,昭和54年。
    [8][美]Chri stopher,D.Manning,[德]Hinrich Schutze著,范春法等译,《统计自然语言处理技术》,电子工业出版社,北京,2005。
    [9][美]Daniel Jurafsky,JamesH.Martin著,冯志伟,孙乐译,《自然语言处理综论》,电子工业出版社,北京,2005.
    [10]畏尾真等,言语情报处理(9),岩波书店,1997年。
    []1]畏尾真,言语情报处理(15),岩波书店,1996年。
    [14]水谷静夫,言语と数学,森北出版株式会社,1990年。
    [14]敖其尔,从英文到蒙文的机器翻译,内蒙古大学学报(哲学版),1988年第三期。
    [15]巴·达瓦达格巴,《蒙古句法研究》,内蒙古人民出版社,呼和浩特,2008。
    [16]巴达玛敖德斯尔,面向机器翻译的汉蒙短语转换规则研究,内蒙古教育出版社,2005年。
    [17]巴达玛敖德斯尔,面向信息处理的蒙古语词语分类体系研究,中央民族大学学报,2004年第3期。
    [18]巴达玛敖德斯尔,汉蒙机器翻译中的蒙古语词语法属性描述,民族语文,2002(4)。
    [19]百顺,日本语から蒙古语への机械翻译の研究,图书馆情报大学修士学位论文,2004年。
    [21]百顺,基于派生文法的日-蒙机器翻译系统中的句节生成,ALTAI HAKPO,17:ALTAI学会,2007年,pp.125-137。
    [22]百顺,基于派生文法的日-蒙动词短语机器翻译研究,中文信息学报,22.2:中国中文信息学会,2008 年,pp.47-54。
    [23]百顺,基于派生文法的日蒙机器翻译研究,中文计算技术与语言问题研究一第七届中文信息处理国际会议论文集,电子工业出版社,2007,pp.586-590。
    [24]白音门德,贾拉森,确精扎布,巴达玛敖德斯尔,探索与硕果——献给蒙古语文研究所建所40周年,2002年。
    [25]达胡白乙拉,蒙古语基本动词短语自动识别研究,内蒙古大学博士学位论文,2005年。
    [26]达胡白乙拉,面向信息处理的蒙古语名词短语结构规则研究,内蒙古大学硕士学文论文,2002年。
    [27]戴庆夏,赵大兵,大罗桑朗杰等,《中国少数民族语言文字信息处理研究与发展》,民族出版社,北京,2010。
    [28]德·青格乐图,《面向信息处理的蒙古语固定词组研究》,内蒙古教育出版社,呼和浩特,2001。
    [29]德·青格乐图.蒙古语复合词的语法属性描述[J]内蒙古师范大学学报(哲学社会科学版),2003,(04)
    [30]德·青格乐图等,《现代蒙古语固定短语语法信息词典详解》,内蒙古教育出版社,2005。
    [31]额尔敦朝鲁.面向信息处理的蒙古语动词语义研究[D]内蒙古大学,2005。
    [32]冯志伟,计算语言学基础,商务印书馆,2001年。
    [33]冯志伟,自然语言机器翻译新论,语文出版社,1994年。
    [34]付令阿,蒙古语正字法研究,内蒙古人民出版社,2001年。
    [35]冯志伟,《应用语言学综论》,广东教育出版社,广州,1999。
    [36]冯志伟,《自然语言的计算机处理》,上海外语教育出版社,上海,1996.
    [37]冯志伟,自然语言机器翻译新论,语文出版社,1994年。
    [38]冯志伟,机器翻译研究,中国对外翻译出版公司,2004年。
    [39]高·照日格图,蒙古语MINI,CINI,NI的意义作用之我见,内蒙古大学学报,1990(2)。
    [40]高·照日格图,关于成分句主语的定格,宾格形式,蒙古语文,1989(8).
    [41]华沙宝,巴达玛敖德斯尔,蒙古语语料库建设状况分析和完善策略,语言计算与基于内容的文本处理,孙茂松,陈群秀主编,清华大学出版社,2003年。
    [42]华沙宝,现代蒙古语文自动校对系统——MHAHP,内蒙古大学学报,1997年第4期。
    [43]华沙宝,对蒙古语料库的词类标注系统——AYIMAG,内蒙古大学学报,1999年第5期。
    [44]华沙宝,关于蒙古语信息处理,内蒙古大学学报,2002年,第1期。
    [45]华沙宝,蒙古语短语标注策略,中央民族大学学报,2003年第5期。
    [46]华沙宝,关于蒙古语语料库建设,中国少数民族语言信息技术与语言资源库建设学术讨论会论文集,2004年。
    [47]华沙宝,吉仁花,蒙古语形容词短语研究,语言学研究与应用,2006年,第3期。
    [48]华沙宝,对蒙古语语料库的短语标注,中央民族大学学报,2006年第5期。
    [49]黄昌宁等,语料库语言学,商务印书馆,2007年。
    [50]侯宏旭,刘群,那顺乌日图,基于实例的汉蒙机器翻译,中文信息学报,2007.第4期,p65-72。
    [51]侯敏,《计算语言学与汉语自动分析》,北京广播学院出版社,北京,1999。
    [52]吉日木图,基于模板的英蒙机器翻译系统的研究,内蒙古大学硕士学位论文,2005。
    [53]刘群,汉语词法分析和句法分析技术综述,SWCL2002论文集,2002。
    [54]刘群,汉英机器翻译若干关键技术研究,北京大学2004年博士学位论文。
    [55]刘群,统计机器翻译综述,中文信息学报,Vol.17, No.4, pp.1-12,2003.7.
    [56]刘开瑛,郭炳炎,《自然语言处理》,科学出版社,北京,1991年。
    [57]刘群等,汉英机器翻译的难点分析,中文信息处理国际会议论文集,北京:清华大学出版社,1998年,pp.507-514。
    [58]《蒙古语正字法词典》编委会,《蒙古语正字法词典》(上下册),内蒙古人民出版社,呼和浩特,1999。
    [59]那顺乌日图,蒙古语信息处理,内蒙古科学技术出版社,1998年。
    [60]那顺乌日图,蒙古语信息处理论文选集,2006年。
    [61]那顺乌日图,刘群,巴达玛敖德斯尔,面向机器翻译的蒙古语生成,自然语言理解与机器翻译,清华大学出版社,2001年。
    [62]那顺乌日图,《蒙古语信息处理》,内蒙古科学技术出版社,呼和浩特,1998年。
    [63]那顺乌日图,计算机处理现代蒙古语TAI/TEI形式的尝试,民族语文,1991(3)。
    [64]那顺乌日图,蒙古语语法信息词典框架设计,内蒙古大学2000年博士学位论文。
    [65]那顺乌日图,刘群,巴达玛敖德斯尔,关于汉蒙机器辅助翻译系统,阿尔泰学报第21,汉城,2001年。
    [66]那顺乌日图,刘群,巴达玛敖德斯尔,关于汉蒙机器辅助翻译系统,阿尔泰学报第21,汉城,2001年。
    [67]纳·格日勒图,《蒙古语书面语语法研究》,内蒙古大学出版社,呼和浩特,1998.
    [68]纳·格日勒图,《蒙古语词形变化和词之间的意义搭配规则》,内蒙古人民出版社,呼和浩特,2008。
    [69]娜步青,基于统计的蒙汉机器翻译系统研究,内蒙古农业大学学报(社会科学版),2006.2.
    [70]内蒙古大学蒙古学学院蒙古语文研究所,《蒙汉词典》(增订版),内蒙古大学出版社,呼和浩特,1999。
    [71]内蒙古大学蒙古学学院蒙古语文研究所,现代蒙古语,内蒙古人民出版社,2005年。
    [72]清格尔泰,蒙古语语法,内蒙古人民出版社,1991年。
    [73]确精扎布,蒙古语语法研究(第一册),内蒙古大学出版社,1989年。
    [74]确精扎布,蒙古语编码,内蒙古大学出版社,2000年。
    [75]确精扎布,《确精扎布论文集》,内蒙古人民出版社,呼和浩特,2008。
    [76]孙广范等,基于混合策略的汉英双向机器翻译系统的设计,中文信息学报,2006.第20卷增刊,pp.26-30。
    [77]石纯一,黄昌宁,王家廞, 《人工智能原理》,清华大学出版社,北京,1993
    [78]王斯日古楞,基于混合策略的汉蒙机器翻译及相关技术研究,内蒙古大学博士学位论文,2009年。
    [79]王斯日古楞,英蒙机器翻译系统的设计与实现,,内蒙古大学硕士学位论文,2002年。
    [80]王春荣等,内蒙古师范大学CWMT2011蒙汉机器翻译系统评测技术报告,机器翻译研究进展-第七 届全国机器翻译研讨会论文集,pp.105-109,2011年。
    [81]吴竸存,梁伯枢,《现代汉语句法结构分析》,语文出版社,北京,1992.
    [82]雪艳,汉蒙词语对齐及其相关技术研究,内蒙古大学2009年博士论文。
    [83]徐列炯,生成语法理论:标准理论到最简方案,上海教育出版社,2009年。
    [84]俞士汶,《计算机语言概论》,商务印书馆,北京,2003。
    [85]张建梅,基于语料库的现代蒙古语简单陈述句句型分析研究,内蒙古大学2010年博士论文。
    [86]赵铁军,机器翻译原理,哈尔滨工业大学出版社,2000年。
    [87]宗成庆,统计自然语言处理,清华大学出版社,2008年。
    [88]宗成庆,机器翻译研究进展—第四届全国机器翻译研讨会论文集,2008年11月。
    [89]www.Babel.Stone.co.uk/Sortware/BabelPad.html

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700