用户名: 密码: 验证码:
蒙古文同形词知识库的构建
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
据统计,蒙古文同形词在静态环境中占词典词条总数的18%,动态环境中占语料总词数的55%。全面、系统、形式化地研究同形词,不仅对蒙古语文教学、词典编纂有重要意义,而且对语料的读音识别、词法分析、词性标注、语义标注意义也是重大。通过本课题的研究,我们构建了蒙古文同形词知识库,包括“同形词信息词典”,人工识别与标注同形词的"100万词级现代蒙古语文数据库”,同形词的搭配库、共现库、类语库及“同形词信息词典”管理与维护工具,共现成分统计工具,“同形同音同类词”识别与标注工具等。同形词知识库是蒙古文综合型语言知识库的有机组成部分。
     本文由导论和六章组成:导论部分交待了本文研究对象、名词术语、研究概况、研究意义、研究步骤、研究方法及资料来源。
     第一章从语言信息处理的角度阐述了同形词的类别、来源、同形词与同音词、同形词与兼类词、同形词与多义词的关系。
     第二章详细论述了“同形词信息词典”的研制过程,其中包括词条来源、选词原则和方法、属性字段及取值规格等内容。
     第三章主要介绍了“同形词信息词典”管理维护工具的结构、功能、特点及存在的问题。
     第四章通过在"100万词级现代蒙古语文数据库”中人工识别标注同形词制作训练集,并对蒙古文同形词的分布情况做出了判断。
     第五章基于词典建立了同形词的搭配库、共现库、类语库。基于语料库在"100万词级现代蒙古语文数据库”中统计并计算出同形词共现成分的各种统计指数。
     第六章基于搭配库和共现库在测试集中自动识别标注了“同形同音同类词”,其识别标注召回率为99.8%,准确率为81.7%,并对测试结果进行了详细的分析和论述。
According to the statistics, Mongolian homographs account for 18% of dictionary in static circumstance, and account for 55% of corpus in dynamic circumstance. A comprehensive and systematic study for the homographs play important roll in the Mongolian language teaching and lexicography. The recognition of the homographs is the bottleneck of pronunciation recognition, morphological analysis, Part of Speech tagging and semantic tagging in Mongolian information processing. In this research, the author constructs the Mongolian homographs knowledge base which includes the following parts:homographs electronic dictionary; one million words corpus of manually recognized and tagged homographs; homographs' collocation base, co-occurrence base and synonym base; the management and maintenance tool of the homographs electronic dictionary; the statistical tool of the co-occurrence components; an automatic recognition tool of the homographs. Homographs knowledge base is an organic part of the Mongolian comprehensive knowledge base.
     This paper consists of introduction and six chapters:
     In the introduction, explain the object of the research, terminology, the research profile, significance, steps, methods and the source of the material.
     In the first chapter, discuss the relationship between the homographs and the homonyms, the homographs and the conversion words, the homographs and polysemy, then sum up the types and the sources of the homographs.
     In the second chapter, exposit the process of developing the homographs electronic dictionary in detail, including word sources, the principles and methods of the word selection, the attribute fields and value's specifications and so on.
     In the third chapter, mainly introduces the structures, functions, characteristics and existing problems of the management and maintenance tool.
     In the fourth chapter, briefly introduces the process of the training set construction—the process of recognizing and tagging homographs manually in one million words corpus. Then estimate the distribution of the homographs in Mongolian corpus.
     In the fifth chapter, based on the dictionary constructs the homographs' collocation base, co-occurrence base and synonym base; based on the corpus calculates the various statistical values of the homographs' co-occurrence components in one million words corpus.
     In the sixth chapter, implement the homographs automatic recognition based on the collocation base and the co-occurrence base, the test shows that the recall rate reaches 99.8% with precision rate of 81.7%. Then analyze the test results in detail.
引文
[1] #12
    [2] #12
    [3] #12
    [4] #12
    [5] #12
    [6] #12
    [7] #12
    [8] #12
    [9] #12
    [10] #12
    [11] #12
    [12] #12
    [13] #12
    [14] #12
    [15]#12
    [16]#12
    [17]#12
    [18]#12
    [19]#12
    [20]#12
    [21]#12
    [22]#12
    [23]陈乃雄,《蒙文同形词》,内蒙古教育出版社,1982年
    [24]俞士汶等,《现代汉语语法信息词典详解》(第二版),清华大学出版社,2003年
    [25]德.青格乐图等,《现代蒙古语固定短语语法信息词典详解》,内蒙古教育出版社,2005年
    [1]#12
    [2]#12
    [3]#12
    [4]#12
    [5] #12
    [6] #12
    [7] #12
    [8] #12
    [9] #12
    [10] #12
    [11] #12
    [12] #12
    [13] #12
    [20]#12
    [21]#12
    [22]#12
    [23]#12
    [24]朱德熙,《语法讲义》,商务印书馆,1982年
    [1]#12
    [2]#12
    [3]#12
    [4]#12
    [5]#12
    [6]#12
    [7]#12
    [8]#12
    [9]#12
    [10]#12
    [11]#12
    [12]#12
    [13]#12
    [14]#12
    [15]#12
    [16]#12
    [17]#12
    [18]#12
    [19]#12
    [20]王雪霞,《现代汉语双音同形词与词典编纂》,河北师范大学硕士学位论文,2002年
    [21]刘文涛,《信息处理用同音同形词研究》,山东师范大学硕士学位论文,2003年
    [22]淑琴,《蒙古语语法信息词典构形附加成分分库》的设计与实现,内蒙古大学硕士学位论文,2005年
    [23]张建梅,《蒙古文同形异音词的读音识别研究》,内蒙古大学硕士学位论文,2005年
    [24]叶嘉明,基于规则的蒙古语词法分析研究与实现,北京大学硕士学位论文,2005年
    [25]图格木乐,《蒙古文资源库相关技术研究》,内蒙古大学硕士学位论文,2007年
    [26]包艳花,《蒙古文识别文本后处理相关技术研究》,内蒙古大学硕士学位论文,2007年
    [27]包敏娜,《蒙古文印刷体扫描识别系统》(recog1.0版)自动校正算法研究,内蒙古大学硕士学位论文,2007年
    [28]那顺乌日图,《蒙古语语法信息词典》框架设计,内蒙古大学博士学位论文,2000年
    [29]达胡白乙拉,《蒙古语基本动词短语自动识别研究》,内蒙古大学博士学位论文,2005年
    [30]吕叔湘,《关于汉语词类的一些原则性问题》,《汉语语法论文集》,商务印书馆,1984年
    [31]吕叔湘,《汉语语法分析问题》,《汉语语法论文集》,商务印书馆,1984年
    [32]徐枢,《兼类与处理兼类时遇到的一些问题》,《语法研究和探索》(五),语文出版社,1991年
    [33]陆俭明,《关于词的兼类问题》,中国语文,1994.1
    [34]孙茂松等,《汉语搭配定量分析初探》,中国语文,1997.1
    [35]那顺乌日图,《蒙古文词根、词干、词尾自动切分系统》,内蒙古大学学报(人文社会科学版),1997.2
    [36]华沙宝,现代蒙古文自动校对系统—MHAHP,内蒙古大学学报(人文社会科学版),1997.4
    [37]周焕林,《莫把『同形词』说成『兼类词』》,阅读与写作,1997.8
    [38]董晓英,《词的兼类现象和活用现象》,丽水师专学报,1998.6
    [39]华沙宝,《对蒙古文语料库的词类标注系统—AYIMAG》,内蒙古大学学报(人文社会科学版),1999.5
    [40]甘宇慧,《词的同形异类现象是否等于兼类现象》,浙江传媒学院学报,2002.4
    [41]华沙宝,巴达玛敖德斯尔:《蒙古语语料库建设现状分析和完善策略》,语言计算与基于内容的文本处理,清华大学出版社,2003年
    [42]马乃田,《词的多义与兼类现象探微》,济宁师范专科学校学报,2003.8
    [43]张博,《现代汉语同形同音词与多义词的区分原则和方法》,语言教学与研究,2004.4
    [44]张博,《影响同形同音词与多义词区分的深层原因》,宁夏大学学报,2005.1
    [45]全昌勤等,《基于统计模型的词语搭配自动获取方法的分析与比较》,计算机应用研究,2005.9
    [46]陈一,张君,《汉语『广狭同形』词语的规范化问题》,北方论丛,2006.2
    [47]丁政,《搭配词统计分析与Excel实现》,洛阳师范学院学报,2006.5
    [48]斯·劳格劳,基于蒙古文拉丁转写联合方案的自动转写系统,第12届中国少数民族语言文字信息处理学术研讨会,中国拉萨,2009年7月
    [49] Marti A.Hearst, Noun Homograph Disambiguation Using Local Context in Large Text Corpora, In the Proceedings of the 7th Annual Conference of the University of Waterloo Centre for the New OED and Text Research,Oxford,1991
    [50] Dixon, P; Twilley, L C, Context and homograph meaning resolution, Can J Exp Psychol, 1999
    [51] Gorfein, D S; Berger, S; Bubka, A, The selection of homograph meaning: word association when context PROCEEDINGS,2006
    [54] Old LJ, Homograph disambiguation using formal concept analysis, FORMAL CONCEPT ANALYSIS,University SCIENCE A, 2006
    [53] YANG Che-Yu, Word sense disambiguation using semantic relatedness measurement, Journal of Zhejiang SECOND ANNUAL CONFERENCE OF THE COGNITIVE SCIENCE SOCIETY,2000
    [52] Kobayashi, Y, The role of working memory in homograph recognition, PROCEEDINGS OF THE TWENTY-changes, Mem Cognit, 2000
    [1]#12
    [2]蒙古语数范畴语法属性的字段设置及其应用,蒙古学集刊,2004.3
    [3]#12
    [4]#12
    [5]#12
    [6]蒙古语构形附加成分重叠使用特征及其模型,蒙古学集刊,2005.4
    [7]面向EBMT系统的汉—蒙双语语料库的构建,内蒙古社会科学(双月刊),2006.1
    [8]#12
    [9]#12
    [10]#12
    [11]蒙古文信息熵,蒙古学集刊,2009.1
    [12]《蒙古文同音同形同类词》知识库的构建,中央民族大学学报,2010.4

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700