机器词典释义模版的建构和运用
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:The Construction and Application of Chinese Words Interpretation Template
  • 作者:王恩旭 ; 袁毓林
  • 英文作者:WANG Enxu;YUAN Yulin;Department of Chinese Language and Literature,Peking University;School of Liberal Arts Qufu Normal University;
  • 关键词:生成词库论 ; 释义模版 ; 多义词 ; 同义词 ; 新词
  • 英文关键词:generative lexicon theory;;interpretation templates;;polysemy;;synonyms;;new words
  • 中文刊名:MESS
  • 英文刊名:Journal of Chinese Information Processing
  • 机构:北京大学中文系;曲阜师范大学文学院;
  • 出版日期:2018-01-15
  • 出版单位:中文信息学报
  • 年:2018
  • 期:v.32
  • 基金:教育部人文社科基地重大项目“汉语意合语法框架下的词汇语义知识表示及其计算系统研究”;; 973计划项目(2014CB340502);; 中国博士后科学基金(2016M600004);; 山东省社科基金(16CZWJ31);; 国家语委科研项目(YB135-45)
  • 语种:中文;
  • 页:MESS201801010
  • 页数:8
  • CN:01
  • ISSN:11-2325/N
  • 分类号:72-78+99
摘要
机器理解词主要借助于词典,但目前的词典释义还不准确,也不完备。对于这些问题,该文通过分析词的语义结构和建构词的释义模版来解决。通过分析词的语义结构,弄清词义中包含着哪些语义成分、语义关系,确定哪些是必有成分、必有关系,哪些是可有成分、可有关系。然后,结合实例讨论释义模版的建构过程、原则与方法。最后,通过释义模版,解决词典释义不完备、语义联系不明显、循环释义、新词释义等问题。
        Machine understanding of words is mainly based on dictionaries,but the present dictionary interpretation is inaccurate and imperfect.This paper investigates this issue by analyzing the semantic structure words of and constructing interpretation templates of the words.By analyzing the words semantic structure,we try to discover what semantic components and semantic relations words contain,and determine which of them are necessary and which of them are unnecessary.Then,with examples,this paper discusses the process,principles and methods of constructing interpretation templates.Finally,this paper shows that constructing the interpretation template is helpful to solve the following issues:the polysemous words interpretation,the synonym words interpretation,the new words interpretation problem,etc.
引文
[1]袁毓林.汉语名词物性结构的描写体系和运用案例[J].当代语言学,2014(1):31-48.
    [2]李强,袁毓林.生成词库理论和名词语义的结构描述与概念解释[C].词汇学国际学术会议暨第十一届全国汉语词汇学学术研讨会论文,北京:北京大学,2016.
    [3]施春宏.词义结构的认知基础及释义原则[J].中国语文,2012(2):114-127。
    [4]马英新.“动+名”偏正式双音复合词的结构义及其释义研究[D].石家庄:河北师范大学博士学位论文,2013.
    [5]Pustejovsky J.The generative lexicon[M].Cambridge:MIT Press,1995.
    [6]Sproat R,Emerson T.The first international Chinese word segmentation bakeoff[C]//Proceedings of the2nd SIGHAN work-shop on Chinese language processing,2003:11-17.
    [7]Pierrette B,Federica B(eds.),黄居仁,苏祺(导读),2001/2010,词义的语言:词义理论的跨学科讨论[M].北京:北京大学出版社.
    [8]袁毓林.汉语配价语法研究[M].北京:商务印书馆,2010.
    [9]Miller G A.Nounsin WordNet[M].WordNet:An Electronic Lexical Database.Cambridge&MA:The MIT Press,1998.
    [10]袁毓林.形容词的语义特征和句式特点之间的关系[J].汉藏语学报,2013(7):147-165.
    [11]Lyons J.Semantics[M].Cambridge:Cambridge University Press,1977.
    [12]柯林斯出版公司.Collins COBUILD advanced learner's English dictionary:new edition[M].北京:外语教学与研究出版社,2006.
    [13]苏新春.现代汉语语义分类词典[Z].北京:商务印书馆,2014.
    [14]马庆株.自主动词和非自主动词[J].中国语言学报,北京:商务印书馆,1988(3):157-180.
    [15]魏雪,袁毓林.基于语义类和物性角色建构名名组合的释义模板[J].世界汉语教学,2013(2):172-181.
    [16]魏雪,袁毓林.基于规则的汉语名名组合的自动释义研究[J].中文信息学报,2014(3):1-10.
    [17]郭在贻.训诂学(修订本)[M].北京:中华书局,1986/2005.
    [18]张联荣.谈词的核心义[J].语文研究,1995(3):31-36.
    [19]王云路,王诚.汉语词汇核心义研究[J].北京:北京大学出版社,2014.
    [20]欧阳丽文,李仕春.从词性的角度看现代汉语同义词的分布规律[J].广西教育学院学报,2013(2):82-85.
    [21]蒋绍愚.打击义动词的词义分析[J].中国语文,2007(5):387-401.
    [22]中文信息学会.中文信息处理发展报告[Z].www.cipsc.org.cn,2016.
    [23]陈振宇,袁毓林,张秀松,等.一种基于大知识库的亲属关系自动推理模型[J].中文信息学报,2010a,24(3):117-123.
    [24]陈振宇,袁毓林.汉语亲属关系的语义表示和自动推理[J].中国语文,2010b(1):44-56.
    [25]Wang Enxu,Yuan Yunlin.The meaning of the Chinese polysemous adjective“Hao”(Good).Chinese Lexical Semantics.Wu Yunfang et al.(Eds),CLSW2017,Springer Verlag,Berlin Heidelberg,2017.(forthcoming)
    [26]王恩旭,袁毓林.词义中物性角色的分布及其对词语释义的影响[J].外国语,2017.(已录用,待发表)
    (1)以分词为例,研究表明,60%的分词错误是新词和未登录词造成的[6]。
    (2)和已有的理论相比,生成词库论提供了一个更为丰富、完备的词义描述框架,被广泛应用于多种语言的词典编纂和语义资源建设之中。但在汉语中,生成词库论还限于解释一些个别的语言现象,系统的面向计算的词汇语义分析尚未展开[7]。
    (1)为增强词义信息的完整性和典型性,本文在释义时采用了文献[1]的方法,将被释词嵌入释义之中。以“椅子”为例:《柯林斯》[chair]A chair is a piece of furniture for one person to sit on,with a back and four legs.《现汉》[椅子]有腿有靠背的坐具。《本文》[椅子]椅子是一种供人坐的家具,它有靠背和四条腿。和《现汉》相比,本文释义的语义信息更加丰富。(进一步讨论,参见第5部分)
    (2)本文的语义分类主要参照《现代汉语语义分类词典》[13]、《现代汉语语义词典》(北京大学计算语言学研究所),个别分类吸收了现代语言学的研究成果。比如,将动词分为自主动词和非自主动词是吸收了文献[14]的成果。
    (1)根据文献[20]对《新华同义词词典》(2005版)的统计,名词、动词、形容词占同义词的绝大多数(占92%)。其中,动词数量最多(占45%),形容词次之(占25%),名词再次之(占22%)。
NGLC 2004-2010.National Geological Library of China All Rights Reserved.
Add:29 Xueyuan Rd,Haidian District,Beijing,PRC. Mail Add: 8324 mailbox 100083
For exchange or info please contact us via email.