近30年来中文语言知识资源发展及应用
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:An Overview of the Advances and Applications of Online Chinese Language Resources over Three Decades
  • 作者:詹卫东
  • 英文作者:Zhan Weidong;
  • 关键词:语言知识资源 ; 语料库 ; 知识库 ; 检索系统
  • 英文关键词:Chinese language resource;;corpus;;knowledge base;;search engine
  • 中文刊名:YZLY
  • 英文刊名:Chinese Journal of Language Policy and Planning
  • 机构:北京大学中国语言文学系/中国语言学研究中心/计算语言学教育部重点实验室;
  • 出版日期:2018-07-10
  • 出版单位:语言战略研究
  • 年:2018
  • 期:v.3;No.16
  • 基金:国家重点基础研究发展计划(2014CB340504);; 教育部人文社科重点研究基地重大项目(13JJD740001,15JJD740002)经费支持
  • 语种:中文;
  • 页:YZLY201804016
  • 页数:12
  • CN:04
  • ISSN:10-1361/H
  • 分类号:60-71
摘要
本文利用互联网搜索引擎,调研了中国大陆和港台地区,以及北美、欧洲等多地的中文语言知识资源,包括语料库、知识库及相应的检索系统的现状。得益于经验主义研究范式在自然语言信息处理以及其他语言应用研究领域近30年来的快速发展,中文世界的可用语言知识资源已经积累到了相当可观的规模。本文从4个方面讨论了中文语言知识资源在汉语研究及教学中的应用价值,并简要分析了资源建设面临的挑战及对汉语语言学未来发展可能造成的影响,指出汉语语言学研究的理想进路应是将基于理性内省的语言学研究范式与基于真实海量语言数据的实证分析相结合,而不是将二者对立起来。
        In the past three decades, empiricism paradigm in research prevails in natural language processing and other language application fields, which leads to the boom of online language data resources, including corpora, knowledge bases, and the related search engines.. With regard to Chinese language online resources, numerous Chinese corpora, lexicon and dictionaries, large or small, have been established and open for search and research purposes, which has given great impetus for Chinese language studies. This paper examines the development and application of the online Chinese language resources, and discusses their possible impact on linguistics and the challenges for their further development. First, it gives a brief introduction of the background of corpus development. Second, it presents an overview of the Chinese language resources constructed since the 1990s to date. Third, it uses some concrete examples to demonstrate the application of online resources in linguistic research and language teaching. Fourth, it discusses the challenges for the construction of Chinese language online resources and the difficulties in their applications. In conclusion, it suggests a closer integration of introspection-based theoretical analysis and data-driven statistical analysis to benefit language studies.
引文
柏晓静,詹卫东2006《汉语“被”字句的约束条件与机器翻译中英语被动句的处理》,载邢福义《汉语被动表述问题研究新拓展》,武汉:华中师范大学出版社。
    冯胜利2015《声调、语调与汉语的句末语气词》,《语言学论丛》51辑。
    冯志伟2006《<应用语言学中的语料库>导读》,载霍斯顿《应用语言学中的语料库》,北京:世界图书出版公司。
    李宇明2007《关于<中国语言生活绿皮书>》,《语言文字应用》第1期。
    马千2011《从英汉对比看汉语“这”“那”的定指表达》,北京大学硕士学位论文。
    叶述冕2016《声调、语调、语气词之类型学相关性》,《语言学论丛》53辑。
    袁毓林,李强2014《怎样用物性结构知识解决“网球问题”?》,《中文信息学报》第5期。
    詹卫东,常宝宝,俞士汶1999《汉语短语结构定界歧义类型分析及分布统计》,《中文信息学报》第3期。
    詹卫东2013《基于大规模中文树库的汉语句法知识获取研究》,载郑秋豫《语言资讯和语言类型》,台北:“中研院”。
    詹卫东,陶红印2016《北美书面汉语语法特点探析——基于互联网中文文本的考察》,《全球华语》(Global Chinese)第1期。
    Andor,J.2004.The master and his performance:An interview with Noam Chomsky.Intercultural Pragmatics 1(1),93-111.
    Boisson,J.,T.Kao,J.Wu,et al.2013.Linggle:A web-scale linguistic search engine for words in context.Proceedings of the51st Annual Meeting of the Association for Computational Linguistics,139-144.
    Chomsky,N.1957.Syntactic Structures.Hague:Mouton Publishers.
    Chomsky,N.1981.Lectures on Government and Binding.Dordrecht:Foris.
    Chomsky,N.1993.A minimalist program for linguistic theory.In K.Hale and S.Keyser(eds.),The View from the Building 20:Essays in Linguistics in Honour of Sylvain Bromberger.Cambridge:MIT Press.
    Chomsky,N.1995.The Minimalist Program.Cambridge:MIT Press.
    Chomsky,N.2000.New Horizons in the Study of Language and Mind.Cambridge:Cambridge University Press.
    Gries,S.2012.Corpus linguistics,theoretical linguistics,and cognitive psycholinguistics:Towards more and more fruitful exchanges.In Joybrato Mukherjee and Magnus Huber(eds.),Corpus Linguistics and Variation in English:Theory and Description.Amsterdam:Rodopi.
    Hong,J.F.and C.R.Huang.2006.Using Chinese Gigaword Corpus and Chinese Word Sketch in linguistic research.In Proceedings of the 20th Pacific Asia Conference on Language,Information and Computation,November 1-3,2006,Huazhong Normal University,Wuhan,China.
    Hong,J.F.2014.Chinese near-synonym study based on the Chinese Gigaword Corpus and the Chinese Learner Corpus.In Chinese Lexical Semantics,15th Workshop,CLSW 2014,Macao,China,Volume 8922 of the series Lecture Notes in Computer Science,Springer International Publishing,329-340.
    Huang,C.R.,A.Kilgarriff,Y.Wu,et al.2005.Chinese sketch engine and the extraction of grammatical collocations.In Proceedings of Fourth SIGHAN Workshop on Chinese Language Processing,48-55.
    Jing,Y.and Liu Haitao.2015.Mean hierarchical distance augmenting mean dependency distance.in Proceedings of the Third International Conference on Dependency Linguistics(Depling 2015),Uppsala,Sweden,August 24-26,2015,161-170.
    Levin,B.,G.Song,and B.T.S.Atkins.1997.Making sense of corpus data:A case study of verbs of sound.International Journal of Corpus Linguistics 2,23-64.
    Liu,Haitao,R.Hudson,and Z.Feng.2009.Using a Chinese treebank to measure dependency distance.Corpus Linguistics and Linguistic Theory 5(2),161-175.
    Tao,Hongyin.2000.Adverbs of absolute time and assertiveness in vernacular Chinese:A corpus-based study.Journal of the Chinese Language Teachers Association 35(2),53-74.
    (1)比如美国加州长滩大学谢天蔚收集的中文教学网站资源有216个,分为21类,参见http://web.csulb.edu/~txie/pcr.htm。
    (2)主要的中文语言知识资源网址参见“语言战略研究”微信公众号。
    (3)参见http://www.tradict.net/lang_guoyu.php。
    (4)参见http://www.zdic.net/。、
    (5)参见http://www.linguistic-typology.org/resources.html。
    (6)WALS的全称:World Atlas of Language Structures,参见http://wals.info/。
    (7)UPSID是美国加州大学洛杉矶分校的语音数据库(全称为UCLA Phonological Segment Inventory Database),可以通过世界语言语音数据库门户网站http://phoible.org/访问查询。
    (8)P-Base是加拿大渥太华大学的Jeff Mielke博士构建的语音数据库,参见http://aixl.uottawa.ca/~jmielke/pbase/。
    (1)参见https://en.wikipedia.org/wiki/Google_Ngram_Viewer。在线检索可访问https://books.google.com/ngrams,下载数据可访问http://storage.googleapis.com/books/ngrams/books/datasetsv2.html。
    (2)参见https://archive.org/download/google_ngrams-chinese-simplified。
    (3)参见https://catalog.ldc.upenn.edu/LDC2010T06。
    (1)截至2016年,LDC资源种数为787种,其中英语资源434种,是汉语资源(包括一些方言)的两倍多,无论从数量还是从类型丰富性角度,中文语言资源离英语资源都还有不少距离。
    (2)参见http://digitalsinology.org/when-n-grams-go-bad/。
    (1)“本来”所在的小句在例5中作为内嵌的定语从句使用。
    (2)参见https://www.sketchengine.co.uk/documentation/statistics-used-in-sketch-engine/。
    (1)汉语“被”字句跟英语被动句的对比研究显然对机器翻译也有重要的意义。柏晓静、詹卫东(2006)曾测试过一些机译系统对英语被动形式的汉译情况。结果显示被动句的机器翻译问题比较多。即便是在机器翻译技术已经引入神经网络方法的今天,测试句中的英语句子“Theylovetoreadandbereadto.”机器译成中文仍然是“他们喜欢阅读和阅读”。
    (2)参见http://www.moe.gov.cn/s78/A19/A19_xglj/201309/t20130929_158028.html。
    (1)又称“语言生活绿皮书”,可参见李宇明(2007)的详细介绍。也可浏览教育部语信司官方网站了解每年中国语言生活状况报告发布的情况,http://www.moe.edu.cn/s78/Al9/yxs_left/moe_813/s237/。
    (2)参见http://www.jyb.cn/china/gnxw/201510/t20151017_640001.html。
    (3)谷歌公司利用其强大的网页搜索和数据处理能力,支持了一个名为全球事件、语言与语调数据库(简称GDELT)的项目,收集全球超过100种语言(包括汉语)的新闻报道,实时获取全球各地新闻内容,并对文档进行情感/贬指数(sentimentindex)计算,详见http://www.gdeltproject.org/。这样庞大的实时语言资料库可以为社会语言学研究提供支持。
    (4)例如北美汉语中有“说回那道子汤”这样的“V-回”动趋式带宾语的用法,这是普通话中没有的语法结构(搭配)。普通话中非位移动词带趋向补语(如“V-回来”)跟宾语共现的例子很少,比如像已经固化的表达形式“话又说回来”。
    (5)参见http://www.webcorp.org.uk/live/index.jsp。
    (1)用Word Sketch系统的Search功能搜索单词“的”,可以返回99 838 775个结果(每百万字47 392.00次)。
    (2)摘自《现代汉语词典》(第7版)。“刷”还有名词义项(如“刷子”),这里省略了。
    (1)2011年5月3-5日,麻省理工学院举办了“大脑、心智与机器”(Brians,Minds andMachines)专题研讨会(麻省理工学院建校150周年系列活动之一)。乔姆斯基在发言中表达了对统计方法在语言学研究中作用的质疑。之后谷歌科学家Peter Norvig撰文对乔姆斯基的质疑发表详细评论(见http://norvig.com/chomsky.html)。Norvig的文章中谈到了对科学(包括语言学)的性质以及目标的认识,对乔姆斯基的看法提出了批评。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700