用ELAN自建汉语方言多媒体语料库及其应用研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
ELAN是由荷兰内梅亨马普心理语言学研究所开发的一个跨平台的多媒体转写标注软件。本文详细介绍了利用ELAN自建汉语方言多媒体语料库的流程与方法。并以双峰方言语气词为例,论述如何基于这个自建的语料库进行相关研究。
     全文共分为七个部分。
     第一章绪论。首先对ELAN功能、特点及在各国的应用情况进行简单的介绍。本章还介绍了使用ELAN自建多媒体语料库的优势及从2011年以来本人研究ELAN所取得的一些相关成果。本章还谈到本研究的对象、方法、意义、双峰方言的研究综述及语料来源、主要发音人情况等内容。
     第二章语料库与多媒体语料库。语料库的概念在不同的著作和论文中不尽相同,本章首先界定了语料库的概念,接着谈到语料库的设计和加工。多媒体语料库是近年出现的一种新的语料库。在第二节中对多媒体语料库的内涵与外延进行了界定,还介绍了世界各国多媒体语料库的一些建设情况。本章花了相当笔墨介绍汉语方言语料库的建设情况。
     第三章用ELAN自建汉语方言单点多媒体语料库。语料库的建设是本文研究的重点之一。本章详细介绍ELAN的操作及使用以及如何使用ELAN建设方言多媒体语料库,以及如何分别建立语料总库和以各个发音的人语料子库。并介绍如何利用ELAN强大的检索功能对语料库中进行关键词、词语搭配、同现的检索。ELAN的开放性数据结构和设计,为我们拓展开发其功能提供了可能。为了提高ELAN音频转写的效率,提高语料处理和转换的速度,我们开发了两个ELAN的辅助增效软件,音频自动断句辅助工具及批量Eaf文件转换工具,在这里也简单地介绍了这两个软件的使用,另外还介绍了如何在ELAN中调用实验语音软件Praat。
     第四章语料的分词、词性标注及相关统计。首先介绍语料库语料来源与分布情况。ELAN在分词及词性标注等方面存在一定的不足,但ELAN能输出文本文件的功能,让我们可以借助第三方的语料库处理软件来进行这方面的处理,我们使用南京师范大学贺胜开发的CIPP中文语料库加工及应用工具,在自定义双峰方言用户词典的基础上,对所有语料进行了分词和词性标注,并以此基础为进行了句频、词频、字频的相关统计和分析。
     第五章基于语料库的双峰方言语气词研究。利用CIPP分词和词性标记功能,再结合ELAN中的检索功能。我们穷尽式地查找出所有含语气词的句子,从中总共提取了单用的语气词19个、双连的25组、三连的5组。然后在语境中逐个考察语气词单用、连用(双连、三连)时的语气意义和语气功能。最后在ELAN中调用实验语音软件Praat对“呢”、“咩”、“怕”等语气词在句中的语调进行简单的实验语音分析。
     第六章结语。本文的主要研究小结、本文存在的不足及下一步研究工作的计划与安排。
     附录部分有ELAN操作常用术语中英文对照表、双峰(花门)方言音系、篇章转写等内容。
ELAN is an annotation tool that allows ya to create, edit, visualize and search annotations for video and audio data. It was developed at the Max-Planck Institute for Psycholinguistics, Nijmegen, The Netherlands, with the aim to provide a sand technological basis for the annotation and exploitation of multimedia recordings. This paper introduces the building process of building Chinese dialect multimedia corpus in detail.And use the modal particles in Shuangfeng dialect as an example, discusses how to research based on the corpus.
     This paper has seven parts.The first chapter,Introduction. Firstly, introduce the ELAN's function, characteristics and has a brief introduction abst ELAN's application in the world. This chapter also describes the advantage of building multimedia corpus by ELAN, and also introduces some achievement abst researching on ELAN by myself spce2011. This chapter also talks abst the research objects, methods, significance, the research general situation of Shuangfeng dialect and the ssrce of corpus, the main speaker, Shuangfeng (Huamen) Dialect phonology etc.
     The second chapter,corpus and multimedia corpus. Corpus's concepts is different in different books and papers.Firstly, this chapter defines the concept of corpus, then it talks abst the design and processing of corpus. Multimedia corpus is a kind of new corpus in recent years. In the second section, talking abst definition of the multimedia corpus, and introduces the construction situation of multimedia corpus all over the world. This chapter spent more time in introducing the construction of Chinese dialect corpus.
     The third chapter,Building multimedia corpus of Chinese dialects based on ELAN, is a main part of this paper. This chapter introduces the ELAN's operation and use and how to use ELAN to build multimedia corpus, and introduce how to use ELAN's powerful searching function to search keywords, collocation of words,and sentences. In order to improve the efficiency of ELAN's audio segmentation, improving data processing and conversion rate. We developed two Auxiliary software of ELAN, one is automatic audio segmentation tool, and the other is batch Eaf file conversion tool, here also briefly introduced the usage of these two softwares.
     The fsth chapter, Word segmentation, word tagging in the corpus and related statistics. First introduces the corpus'sarce and distribution. Because of ELAN's open structure, we add some function to ELAN. We use the CIPP Chinese corpus processing and application tools made by Mr.HeSheng,the teacher in Nanjing Normal University, based on the custom user dictionary of Shuangfeng Dialect, We segmented all the sentences in the corpus and tagged all the word s in the sentences, and canted sentences frequency, words frequency, character frequency and other analysis.
     The fifth chapter. The modal particles search based on the Shuangfeng dialect corpus. All modal particles have made speech tagging, combined with the searching function in ELAN. We find all the sentences containing modal particles,extracted18single modal particles,31dable linked modal particles,6three linked modal particles. At last,we study all three categories modal particles above,abat their meaning and mood function above in context.
     The sixth chapter.Concluslon. This conclusion of this paper,the shortage of this paper and the next research work plans and arrangements.
     Appendix, ELAN's commonly used terms in Chinese and English, Text Translations(a total of7, the Shuangfeng dialect spoken language transcriptions of nature abat1.8M words), and a snapshot of ELAN Technology Forum's discussion etc..
引文
[1]鲍厚星,陈晖.湘语的分区(稿)[J].方言,2005(3).
    [2]鲍厚星,崔振华,沈若云,伍云姬.长沙方言词典(第2版)[Z].南京:江苏教育出版社,1998.
    [3]鲍厚星,崔振华,沈若云,伍云姬.长沙方言研究[M].长沙:湖南教育出版社,1999.
    [4]鲍厚星.方言语法研究与田野调查[A].蒋冀骋、储泽祥主编.现代汉语研究[C].长沙:湖南师范大学出版社,2004.
    [5]鲍厚星.湘方言概要[M].长沙:湖南师范大学出版社,2006.
    [6]北大中国语言文学系教研室.汉语方言词汇(第二版)[M].北京:语文出版社,2004.
    [7]曹志耘.吴语汤溪方言的否定词——兼与若干方言的比较[J].日本.中国语学第252号,2005.
    [8]曾毓美.湘潭方言语法研究[M].长沙:湖南大学出版社,2001.
    [9]曾毓美.湘潭方言语法研究[M].长沙:湖南大学出版社,2001.
    [10]陈晖.涟源方言研究[M].长沙:湖南教育出版社,1999.
    [11]陈建民.汉语口语[M].北京:北京出版社,1984.
    [12]陈立中,余颂辉.太白方言会话语料集萃[M].上海:上海人民出版社,2010.
    [13]陈前瑞.汉语体貌系统研究[D].华中师范大学博士论文,2003.
    [14]陈山青.泪罗长乐方言研究[M].长沙:湖南教育出版社,2006.
    [15]陈小荷.丰城赣方言语法研究[M].北京:世界图书出版公司,2012.
    [16]陈英杰.现代汉语体系统研究[D].北京语言大学博士论文,2006.
    [17]陈玉洁.量名结构与量词的定语标记功能[J].中国语文,2007(6).
    [18]陈泽平,秋谷裕幸.福州话的通用量词“隻”与“個”[J].方言,2008(4).
    [19]陈章太.语言研究的一项重要的基础工程——评《现代汉语方言音库》[J].语言文字应用.2000(8).
    [20]储诚志.语气词语气意义的分析问题——以“啊“为例[J].语言教学研究,1994(4)
    [21]储泽祥.汉语口语里性状程度的后置标记“去了”[J].世界汉语教学,2008(3).
    [22]储泽祥.邵阳方言研究[M].长沙:湖南教育出版社,1998.
    [23]崔振华.益阳方言研究[M].长沙:湖南教育出版社,1998.
    [24]戴昭铭.天台方言研究[M].北京:中华书局,2006.
    [25]道格拉斯、比伯等著.刘颖、胡海涛译.语料库语言学[M].北京:清华大学出版社,2012.
    [26]丁崇明.昆明方言语法研究[D].山东大学博士论文,2005.
    [27]丁加勇,罗够华.隆回方言的语气词载伍云姬主编.湖南方言的语气词[M].长沙:湖南师范大学,2007.
    [28]范晓等.语法理论纲要(修订版)[M].上海:上海译文出版社,2008.
    [29]方梅.北京话语中语气词的功能研究[J].中国语文,1994(2).
    [30]方小燕.广州方言句末语气词[M].广州:暨南大学出版社,2003.
    [31]费旭岚.新疆汉语方言语音语料库的建设[J].新疆大学学报(哲学人文社科版),2008(4).
    [32]冯志伟.中国语料库研究的历史与现状[J].Jarnal of Chinese Language and Computing,2012 (12).
    [33]甘于恩.广东四邑方言语法研究[D].暨南大学博士论文,2002.
    [34]高原,顾明亮等.多用途汉语方言语音数据库的设计[J].计算机工程与应用,2012(5).
    [35]桂诗春.基于语料库的英语语言学语体分析[M].北京:外语教学与研究出版社,2009.
    [36]郭锐.词频与词的功能的相关性[J].语文研究,2001(3).
    [37]郭曙纶.汉语语料库的建设及应用[M].上海:上海外语教育出版社,2011.
    [38]何耿镛.客家方言语法研究[M].
    [39]贺凯林.淑浦方言研究[M].长沙:湖南教育出版社,1999.
    [40]贺阳.汉语完句成分试探[J].语言教学与研究,1994(4).
    [41]贺阳.试论汉语书面语的语气系统[J].中国人民大学学报,1992(5).
    [42]胡明扬.北京话的语气词和叹词[J].中国语文,1981(5,6).
    [43]胡明扬.陈述语调和疑问语调的“吧”字句[J].语文建设,1993(5).
    [44]胡明扬.流水句初探[J].语文研究,1984(3).
    [45]胡明扬.语气词的语气意义[J].汉语学习,1988(6).
    [46]胡云晚.湘西南洞口老湘语虚词研究[M].南昌:江西人民出版社,2010.
    [47]黄伯荣,廖序东.现代汉语(下册)(增订四版)[M].北京:高等教育出版社,2007.
    [48]黄伯荣等.汉语方言语法调查手册[M].广州:广东人民出版社,2001.
    [49]黄昌宁,李涓子:语料库语言学[M].北京:商务印书馆,2002.
    [50]黄昌宁.关于处理大规模真实文本的谈话[J].言文字应用,1993(2).
    [51]黄成龙等.纪录语言学:一门新兴交叉学科[J].语言科学,2011(5).
    [52]黄国营.句末语气词的层次地位[J].语言研究,1994(1).
    [53]孔令达.影响汉语句子自足的语言形式[J].中国语文,1994(6).
    [54]黎良军.湘语邵阳话音义疏证[M].合肥:黄山书社,2009.
    [55]李静静.基于语料库的上海话—普通话中介音韵母特征研究[D].华东师范大学硕士论文,2008.
    [56]李荣主编,现代汉语方言大词典(42本分地词典)[Z].南京:江苏教育出版社,1993-2003.
    [57]李如龙.闽南方言语法研究[M].福州:福建人民出版社,2007.
    [58]李维琦.祁阳方言研究[M].长沙:湖南教育出版社,1998.
    [59]李小凡.苏州方言语法研究[M].北京:北京大学出版社,1998.
    [60]李永明.衡阳方言[M].长沙:湖南人民出版社,1986.
    [61]李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(4).
    [62]梁青青,杨鸿武等.利用五度字调模型实现普通话到兰州方言的转换[J].声学技术,2010(6).
    [63]林茂灿.汉语语调实验研究[M].吉林:吉林文史出版社,2012.
    [64]刘德联,刘晓雨编著.中级汉语口语(第二版)[M].北京:北京大学出版社,2010.
    [65]刘芹,潘鸣威.多模态环境下中国大学生英语口语非言语交际能力研究初探[J].外语电化教学2012(3).
    [66]刘月华等.实用现代汉语语法[M].商务印书馆,2001.
    [67]卢小群.湘语语法研究[M].北京:中央民族大学出版社,2007.
    [68]陆俭明,沈阳,汉语和汉语研究十五讲[M].北京:北京大学出版社,2003.
    [69]陆俭明.八十年代中国语法研究[M].北京:商务印书馆,1993.
    [70]陆俭明.关于现代汉语里的疑问语气词[J].中国语文,1984(5).
    [71]陆镜光.汉语方言中的指示叹词[J].语言科学,2005(6).
    [72]罗听如.湘方言词汇研究[M].长沙:湖南师范大学出版社,2006.
    [73]罗听如.新化方言研究[M].长沙:湖南教育出版社,1998.
    [74]吕叔湘.汉语语法分析问题[M].商务印书馆,1979.
    [75]吕叔湘.现代汉语八百词[Z].北京:商务印书馆,2007.
    [76]吕叔湘.中国文法要略[M].北京:商务印书馆,1982.
    [77]马修军.多媒体数据库与内容检索[M].北京:北京大学出版社,2007.
    [78]马真.现代汉语虚词散论[M].北京:语文出版社,1999.
    [79]彭逢澎.湘方言考释[M].长沙:湖南师范大学出版社,1999.
    [80]彭兰玉.衡阳方言语法研究[M].北京:中国社会科学出版社,2005.
    [81]彭小川.广州话助词研究[M].广州:暨南大学出版社,2010.
    [82]彭泽润.衡山方言研究[M].长沙:湖南教育出版社,1999.
    [83]彭志峰.汉语方言有声资源元数据规范及网络平台系统功能框架[J].暨南学报(哲学社会科学版),2011(3)
    [84]齐沪扬.现代汉语语气成分用法词典[M].商务印书馆,2011.
    [85]齐沪扬.语气词与语气系统[M].合肥:安徽教育出版社,2002.
    [86]钱奠香.海南屯昌闽语语法研究[M].昆明:云南大学出版社,2002.
    [87]钱乃荣.上海话语法[M].上海:上海人民出版社,1997.
    [88]屈承熹著,潘文国等译.汉语篇章语法[J].北京语言大学出版社,2006.
    [89]阮桂君.宁波方言语法研究[D].华中师范大学博士论文,2006.
    [90]砂冈和子,俞敬松.汉日跨文化错误传播多媒体语料库的建设[C].第六届中文电化教学国际研讨会,2008.
    [91]邵敬敏.汉语语法的立体研究[M].北京:商务印书馆,2000.
    [92]邵敬敏.语气词“呢”在疑问句中的作用[J].中国语文,1989(3).
    [93]邵敬敏等.汉语方言疑问范畴比较研究[M].暨南大学出版社,2010.
    [94]邵敬敏等.汉语语法专题研究[M].北京:北京大学出版社,2009.
    [95]盛银花.安陆方言语法研究[D].华中师范大学博士论文,2007.
    [96]盛银花.安陆方言语法研究[M].武汉:华中师范大学博士学位论文,2000.
    [97]石毓志.汉语的主语与话题之辨[J].语言研究,2001(2).
    [98]石毓志.现代汉语语法系统的建立——动补结构的产生及其影响[M].北京语言大学出版社,2003.
    [99]石毓智.汉语研究的类型学视野[M].南昌:江西教育出版社,2004.
    [100]史冠新.临淄方言语气词研究[D].山东大学博士论文,2006.
    [101]苏俊波.丹江方言语法研究[D].华中师范大学博士论文,2007.
    [102]苏俊波.丹江方言语法研究[M].武汉:华中师范大学出版社,2012.
    [103]孙朝奋.再论助词“着”的用法及其来源[J].中国语文,1997(2).
    [104]孙汝建.语气词口气意义的分析方法[J].南通大学学报,2006(5).
    [105]孙汝建.语气和口气研究[M].中国文联出版社,1999.
    [106]孙三军,周晓岩.语言研究:方法与工具[M].合肥:安徽大学出版社,2011.
    [107]孙锡信.近代汉语语气词[M].北京:语文出版社,1999.
    [108]孙叶林.邵东方言语法研究[M].广州:花城出版社,2009.
    [109]孙妆建.语气和口气研究[M].北京:中国文联出版社,1999.
    [110]汪国胜.大冶方言语法研究[M].武汉:湖北教育出版社,1994.
    [111]汪国胜.大冶金湖话的“的”、“个”和“的个”[J].中国语文,1991(3).
    [112]王洪钟.海门方言语法专题研究[M].芜湖:安徽师范大学出版社,2011.
    [113]王力.中国现代语法[M].商务印书馆,1985.
    [114]王小龙.基于语料库的东台方言特色词释义[D].南京师范大学硕士论文,2007.
    [115]王小龙.基于语料库的东台方言特色词释义[D].南京师范大学硕士论文,2007.
    [116]王泽鹏.发展方言语料库,提高研究水平——兼谈粤方言语料库的建设[J].烟台师范学院学报(哲学社科版),2003(1).
    [117]吴云霞.万荣方言语法研究[M].北京:语文出版社,2009.
    [118]项梦冰.连城客家话语法研究[M].北京:语文出版社,1997.
    [119]谢奇勇.湘语研究第②辑[A].长沙:湖南师范大学出版社,2012.
    [120]邢福义.“起去”的普方古检视[J].方言,2002(2).
    [121]邢福义.从基本流向综观现代汉语语法研究四十年[J].中国语文,1992(6).
    [122]邢福义.汉语语法学[M].东北师范大学出版社,1996.
    [123]邢向东.神木方言研究神木方言研究[M].北京:中华书局,2002.
    [124]徐慧.益阳方言语法研究[M].长沙:湖南教育出版社,2001.
    [125]徐晶凝.现代汉语话语情态研究[M].昆仑出版社,2008.
    [126]徐睿渊,李爱军等.方言语音语料库建立的问题与解决方法——以厦门方言为例[A]. Report of Phonetic Research,2005.
    [127]徐世璇.论濒危语言的文献记录[J].当代语言学,2007(1).
    [128]徐英莹,张培仁.粤语语音合成系统语料库设计研究[J].计算机工程,2005(14).
    [129]许家金.青少年汉语口语中的话语标记的话语功能研究[M].外语教学与研究出版社,2009.
    [130]颜清徽,刘丽华.娄底方言词典[Z].南京:江苏教育出版社,1998.
    [131]杨鸿武,梁青青等.一个面向方言工程的兰州方言语料库[J].西北师范大学学报(自然科学版),2009(6)
    [132]游汝杰.著名中年语言学家自选集[M].合肥:安徽教育出版社,2002.
    [133]于国栋,李枫.会话分析:尊重语言事实的社会学研究方法[J].科学技术与辩证法,2009(2).
    [134]禹向丽.湖南双峰方言的重叠式形容词[J].语文学刊,2006(12).
    [135]袁毓林.汉语词类划分手册[M].北京:北京语言大学出版社,2009.
    [136]詹伯慧,陈晓锦.东莞方言词典[Z].南京:江苏教育出版社,1997.
    [137]张伯江等.从话语角度论证语气词“的”[J].中国语文,1988(2).
    [138]张绍麒等.计算机辅助方言研究系统的建设与胶东方言电子语音语料库的研制[J].鲁东大学学报(哲学社科版),2006(3).
    [139]张霄军.多模态语料库:抢救濒危语言的有效途径[C]第十一届全国民族语言文字信息学术研讨会论文集,2007.
    [140]张彦.北京话语气词韵律特征研究[M].吉林:吉林文史出版社,2009.
    [141]张一舟,张清源,邓英树.成都方言语法研究[M].成都:巴蜀书社,2001.
    [142]张谊生.现代汉语虚词[M].上海:华东师范大学出版社,2000.
    [143]赵葵欣.武汉方言语法研究[M].武汉:武汉大学出版社,2012.
    [144]赵元任.北京、苏州、常州语语助词的研究[J].方言,1992(2).
    [145]郑家恒等.智能信息处理[M].北京:科学出版社,2010.
    [146]钟兆华.语气词“呀”的形成及其历史渊源[J].中国语文.1997(5).
    [147]周鸣之.基于语料库的上海话—普通话中介音声母特征研究[D].华东师范大学硕士论文,2008.
    [148]周玉洁.毕节方言体貌范畴与语气范畴[D].贵州大学硕士论文,2009.
    [149]朱德熙.北京话、广州话、文水话和福州话里的“的”字[J].方言,1980(3).
    [150]朱德熙.说“的”[J].中国语文,1966(1).
    [151]朱德熙.语法讲义[M].北京:商务印书馆,1982.
    [152]朱德熙.语法讲义[M].北京:商务印书馆,2000.
    [153]朱德熙.朱德熙文集(第1、2、3、4卷)[M].商务印书馆,1999.
    [154]朱涛.湖南汝城话的体貌标记[D].湘潭大学硕士论文,2008.
    [155]宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008.
    [156]邹海清.从语义范畴的角度看量化体与体貌系统[J].汉语学报,2010(3).
    [157]Geoffrey Leech,The State of The Art inCorpus Linguistics,1991, In Aijmar,K.and Altenberg, B.,eds.,English CorpusLinguistics:Studies in Honor of Jan Svartvik,London:Longman,1991.
    [158]F.R.Palmer.语气情态[M].北京:世界图书出版公司,2007.
    [159]Jeffrey E.F Friedl著,余晟译.精通正则表达式[M].北京:电子工业出版社,2012.
NGLC 2004-2010.National Geological Library of China All Rights Reserved.
Add:29 Xueyuan Rd,Haidian District,Beijing,PRC. Mail Add: 8324 mailbox 100083
For exchange or info please contact us via email.