语保工程的语料资源利用问题
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:On Use of Language Resources in Language Resources Protection Project
  • 作者:范俊军
  • 英文作者:Fan Junjun;School of Liberal Arts,Jinan University;
  • 关键词:中国语言资源 ; 语保工程 ; 少数民族语言 ; 汉语方言 ; 多媒体语料 ; 语言文字事业
  • 英文关键词:language resources in China;;the Language Resources Protection Project;;ethnic languages;;Chinese dialects;;multi-media language materials;;cause of language and writing
  • 中文刊名:XBMZ
  • 英文刊名:Journal of Northwest Minzu University(Philosophy and Social Science)
  • 机构:暨南大学文学院;
  • 出版日期:2019-05-20
  • 出版单位:西北民族大学学报(哲学社会科学版)
  • 年:2019
  • 期:No.231
  • 基金:国家社会科学基金重大项目“濒危语言数字博物馆建设的理论与实践研究”(项目编号:14ZDB106)
  • 语种:中文;
  • 页:XBMZ201903004
  • 页数:6
  • CN:03
  • ISSN:62-1185/C
  • 分类号:24-29
摘要
中国语言资源保护工程采集录制了大量汉语方言和少数民族语言多媒体基本语料,这是重要的语言资源。从语料效用来看,形态和种类完整齐备,音质、画质和流畅度良好,文本转写正确率高;不过也存在内容全面性欠缺、数量充分性不足等缺憾。"语保工程"将于2019年底结束。当下,应开展基本语料补缺工作,探索多媒体语料有效利用途径,对资源库进行数据挖掘,完善和开辟面向用户的应用功能,为语言学教学与研究、语言社群和大众语言学习、知识传播,提供多样化的语言产品和切实的语言服务,以充分发挥国家语言资源工程的社会价值。
        The Language Resources Protection Project in China has collected and recorded a large amount of multi-media language resources of Chinese dialects and ethnic languages,and these are important language resources. These materials are complete in forms and types,very good in sound and video quality and smoothness,high in accuracy of transcription. However,there is still a lack of content comprehensiveness and quantity inadequacy. The Project will finish at the end of 2019. Currently,we should do some remedy work,explore ways to effectively use multi-media language resources,conduct data mining of the database,better and develop customer-oriented application functions so as to offer diversified products and practical language service for language teaching and research,language learning and knowledge dissemination of language communities and the mass,and make most of the social value of the state language resources project.
引文
[1]教育部.中国语言资源保护工程管理办法(试行)[EB/OL].[2015-06-10]. http://www. moe. gov. cn/srcsite/A19/s7067/201506/t20150610_189880. html.
    [2]范俊军.中国的濒危语言保存和保护[J].暨南学报,2018(10).
    (1)将字音的音标注音分开成声母、韵母、声调3个字段,可能设计者认为这样便于声韵调的比较分析或制作声韵调分布图。实际上,计算机切分声韵调音标注音字符早已不是问题,而且已有简明算法。拙文《基于调查字表词表注音的汉藏语言音系处理系统》(语言文字应用,2012年第2期)提出了数字调值和元音字符匹配法切分声韵调的算法。笔者开发的Sonicfield v1.0软件工具就是采用这种算法切分声韵调,在导入语保数据表时全部对原分开的声韵调字段作了合并。另外,美国(伯克利)加州大学的汉藏同源词数据库(2014年)则采用了有限状态机(Finite-state M achine,FSM)的数学模型切分声韵调字符。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700