基于“动态流通语料库”的“有效字符串”提取研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文提出了一个新的语言处理单位“有效字符串(Valid String,VSt)”并以“动态流通语料库(DCC)”为依托,以“流通度”理论为支点,对“有效字符串(VSt)”的提取进行了初步的研究。
     本文定义的“有效字符串(VSt)”是一种语言理解单位,而不是单纯的语法单位。从语用的角度看,语法研究中的各级单位(例如词、词组/短语、组块等)在一定语用条件下都可以单独完成语言理解和交际任务,本质上也是“有效字符串(VSt)”的一种形式。而关于这些传统语法单位人们已经作了深入细致的研究,并且取得了丰硕的成果,因此,本文更专注于比这些传统语法单位空间跨度更大的“有效字符串(VSt)”的提取研究。
     从形式上看,本文所要提取的“有效字符串(VSt)”也是由上述传统语法单位构成的,它涵盖了从词一直到语块的全部可能的“表达/理解”单位。所不同的是,这些字符串跟语用的要求更加接近,它们不是静态的、备用的语法单位,而是动态的、备用的语用单位,通过对“有效字符串(VSt)”在大规模真实文本中使用情况监控,就可以间接实现对语言使用情况的监控,也就是“语用监控”,进而达到“语言知识动态更新”的终极目标。
     为了实现这一目标,本研究建造了以“句碎片”库为核心的“动态流通语料库(DCC)”,并把“流通度”理论作为整个研究的指导,从“有效字符串(VSt)”的提取入手,试图从一个全新的角度对大规模真实文本的加工处理进行一次探索。
     在这个过程中,本文考察了已有的相关研究成果并从中汲取丰富的营养。参考了认知心理学、大众传播学等的相关理论,对“有效字符串(VSt)”进行了严格的定义,对字符串“频度、使用度、流通度”曲线走势模式进行了初步的分析和归纳,为“有效字符串(VSt)”的自动提取做好了准备。
     在语料具体处理过程中,本文引进了“全捆绑”的策略,从经过分词处理的“句碎片”库中“捆绑”出“备选字符串”,把它们与字符串曲线走势模式进行匹配,从而提取出“有效字符串(VSt)”。
     本研究建造的“动态流通语料库(DCC)”包含2003年10种报纸1-6月的全部语料,8,687,925条记录,平均“句碎片”长度为16字,总语料规模为8,687,925~*16=139,006,800字。全部语料都按照时间序列存储。
     为了处理语料和提取“有效字符串(VSt)”,我们开发了“DCC’处理软系统件”。包括“句碎片’切分、分词”模块、“X串’剥离”模块、“备选字符串’捆绑”模块、“有效字符串(VSt)’提取”模块和“有效字符串(VSt)’后处理”模块。
     以这个规模的语料库为中心,本研究作了157,661条“有效字符串(VSt)”提取实验,正确率为80.21%。
     本文主要有以下四方面创新:
     1、从认知的角度定义了语言的理解和交际单位“有效字符串(VSt)”。
     2、分析并确定“有效字符串(VSt)”的曲线走势图模式(三种)。
     3、提出了基于“曲线走势图”的“流通度”评估方法并提取“有效字符串(VSt)”。
     4、建造基于“句碎片”库的“动态流通语料库(DCC)”。
The goal of this dissertation is to study the extraction of valid strings from natural language corpus. The study is based on the new concept of valid string and the theory of the degree of circulation and is sustained by the Dynamic Circulating Corpus.
    Valid string is not a unit in grammar but is a unit in language communication and understanding. Most grammatical units, such as a word, a phrase or a chunk, may be used independently in communication and be understood as valid strings. There are also valid strings that are combinations of these basic grammatical units.
    On the surface, a valid string is a grammatical unit or a combination of several units. A valid string is not a static item waiting to be used but is dynamic unit in actual language use. By monitoring the use of valid strings in large scale real time natural language corpus, the actual language use can be monitored indirectly and the goal of dynamic language knowledge updating can be reached eventually.
    The concept of valid string is defined in terms of not only grammar but also cognitive psychology and the study of mass media. It is based on the curve of the frequency, distribution and circulation of the valid strings.
    A sentence fragment corpus was built for this study and all potential strings were extracted by using an all-round combination strategy. The combined strings were then compared with a circulation curve model to determine their validity.
    The dynamic circulating corpus built for this study consists of data from ten newspapers (from January to June, 2003), with 8,687,925 entries which have an average length of 16 characters and a total of 8,687,925x16=139,006,800 characters. The data is stored according to their dates.
    A soft-ware for the processing of Dynamic Circulating Corpus was designed for the study, which consists of several modules for the identifying and combining of potential valid strings.
    A total of 157,661 valid strings were extracted from the corpus and the validity rate is 80.21%.
    The contribution of this dissertation is:
    1.to have defined the concept of valid string on the basis of cognition;
    2.to have analyzed and posited three models of the curve for valid strings;
    3.to have established a method for the extraction and evaluation of valid strings; and
    4.to have built a Dynamic Circulating Corpus based on the sentence fragment corpus.
引文
[1] 湛燕、陈昊、袁方、王熙照,基于中文文本分类的分词方法研究,《计算机工程与应用》2003.23
    [2] “第一届中文信息处理发展国际研讨会研讨提纲”,(纳讯网http://naxun.sjtu.edu.cn)
    [3] 《学生汉语阅读过程的眼动研究》,沈德立主编,教育科学出版社2001
    [4] 陆志伟,《汉语的构词法》,科学出版,1957
    [5] 吕香云,《现代汉语语法学方法》,文献书目出版社,1985
    [6] 范晓,《短语和词的界限》,北京语言学院出版社,1996
    [7] 史有为,《汉语如是观》,北京语言文化大学出版社,1997
    [8] 吴葆棠,《现代汉语语法探索》,青岛海洋大学出版社,1991
    [9] 吕叔湘,《汉语语法分析问题》,商务印书馆,1997
    [10] 吕叔湘,《汉语语法论文集》,商务印书馆,1999
    [11] 朱德熙,《语法问答》,商务印书馆,1985
    [12] 谢耀基,《词和短语的离合问题》,烟台大学学报(哲学社会科学版)
    [13] 金立鑫,《现代汉语语法特点和汉语语法研究本位观》
    [14] 齐沪扬,《现代汉语短语》,华东师大出版社,2000
    [15] 周强,《汉语短语的自动划分和标注》,《中文信息学报》,1997.1
    [16] 周强、俞士汶,《汉语短语标注标记集的确定》,《中文信息学报》,1996.4
    [17] 詹卫东,《面向中文信息处理的现代汉语短语结构规则研究》,清华大学出版社、广西科学技术出版社,
    [18] Donald H.,Deterministic parsing of syntactic non-fluencies, In Proc. of the 21th Annual Meeting of the Association for Computational Linguistics,1983
    [19] Carl G. de Marcken.,parsing the LOB Corpus,In Proc. of ACL-28,1990
    [20] Eric Brill,Automatic Grammar Induction and parsing Free Text: A Transformation-base d Approach, In Proc. of ACL-31,1993
    [21] Lari K.,Young S.J., The estimation of stochastic context-free grammars using the Inside-Outside algorithm, Compute Speech and Language, 4(1), 1990
    [22] Pereira F.,Schabes Y., Inside-Outside reestimation from partially bracketed Corpora,In P roc. of ACL-30,1992
    [23] GarsideR.,Leech G.,Sampson G.,The Computational Analysis of English---A Corpus-B
    
    ased Approach, Longman,1987
    [24] Black E.,Garside R.,Leech G.,Statistically-driven Computer Grammars of English: The IBM/Lancaster Approach, Amsterdam: Editions Rodopi,1993
    [25] Magerman D.,Marcus M.,Pearl: A probabilistic Chart Parser." Proc. of COLING-90, 1990
    [26] Briscoe T.,Carroll J.,Generalized probabilistic LR Parsing of Natural language (Corpora) with Unification_Based Grammar, Computational Linguistics,1994
    [27] Tapanainen P.,Jarvinen T.,Syntactic Analysis of Natural Language Using Linguistic Rules and Corpus-Based Patterns, In Proc. of COLING-94, 1994
    [28] Witten I.H,Paynter G.W.,Frank E.,Gutwin C.,Nevill-Manning C.G.,KEA:Pratical automatic keyphrase extraction,Proc.DL'99, 1999
    [29] Turney P.D.,Learing to extract keyphrase from text, NRC Technical Report ERB-1057, National Research Council Canada,1999
    [30] Chien L.F.,PAT-Tree-Based keyword extraction for Chinese information retrieval, SIGIR, 1997
    [31] 杨文峰,李星,基于PAT统计语言模型与关键词自动提取,《计算机工程与技术》,2001.15
    [32] Li S.J.,Wang H.F.,YU S.W.,Xin C.S.,News-Oriented automatic Chinese keyword indexing.Proceedings of the 2nd workshop of SIGHAN,Japan,2003
    [33] 王洪君,《汉语语法的基本单位与研究策略》,语言教学与研究,2000.2
    [34] Sun H.L.,Acquiring grammatical rules by induction from tagged corpus:A case study on "V+N" sequence., Language engineering (in Chinese), Beijing, Tsinghua University press, 1997.
    [35] 赵军、黄昌宁,《基于转换的汉语基本名词短语识别模型》,《中文信息学报》,1999.2.
    [36] 周强、孙茂松、黄昌宁,《汉语最长名词短语的自动识别》,《软件学报》,2000.2.
    [37] 李素建、刘群、白硕,《统计和规则相结合的汉语组块分析》,《计算机应用与发展》,2002.4.
    [38] 李素建、刘群,《汉语组块的定义和获取》,《语言计算与基于内容的文本处理》清华大学出版社,2003.8
    [39] 舒鑫柱、杨尔弘,《基于HowNet的汉语组块分析》,《河南职技师院学报》,2001.12.
    [40] 刘芳,《基于统计的汉语组块分析》,《中文信息学报》,1999.
    [41] Buchholz S.J. Veenstra,W.Daelemans, Cascaded grammatical relation assignment, In Proceeding of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpus, College Park, MD,1999.
    
    
    [42] Jorn Veenstra, Memory-Based Text Chunking, Nikos Fakotakis(ed) , Machine Learning in Human Language Technology, Workshop at ACAI'99,1999.
    [43] 吴迪、舒华,《眼动技术在阅读研究中的应用》,《心理学动态》,2001.4
    [44] 王蓉、阎国利,《阅读中关于眼动控制的研究进展》,《心理学新探》,2003.3
    [45] Rayner k.,Rayner G.E., Eye movement control in reading and visual search: Effects of word frequency[J] . Psychonomic Bulletin, Review,1996.3
    [46] Rayner K.,Frazier L., Selection mechanisms in reading lexically ambiguous words[J] . J ournal of Experimental Psychology: Learning, Memory, and cognition,1989.15
    [47] Sun F.H.,Mprits M.,Stark L.W., Comparative patterns of reading eye movement in Chinese and English., Perception & Psychophysics. 1985
    [48] Miyake A, Shah P. Models of working memory: mechanisms of active maintenance and executive control[M] . New York: Cambridge University Press,1999.
    [49] Hormann,Han. Psycholinguistics: An Introduction to Research and Theory: 2nd edition[M] New York:Spring-Verlag,1979
    [50] Moore,Brain C.J. Introduction to the Psychology of Hearing[M] . New York: The Mac Millan Press Ltd,1977
    [51] 陈开顺,《言语知觉中的心理模式》,外语研究,2001.3
    [52] Lyons,John. Semantics[M] . Cambridge: Cambridge University Press, 1977.
    [53] 陈彩琦、李坚、刘志华,工作记忆模型与基本理论,《华南师范大学学报》(自然科学版),2003.11.
    [54] Baddeley A.D.,Hitch G.J.,Working memory[A] .In:Bower G.A. The Psychology of learning and motivation[M] . New York: Academic Press,1974
    [55] Baddeley A.D., Is working memory still working?[J] . American Psychologist, 2001.11
    [56] Baddeley A.D., The episodic buffer: A new component of working memory?[J] . Trends in Cognitive Science,2002.11
    [57] 眸子,《语法研究中的“两个三角”和“三个平面”》,世界汉语教学,1994.4
    [58] 马琼娜,《少儿英语教学的重要原则》,中小学外语教学,2000.6
    [59] Lewis M.,Hill J., Practical Techniques for Language Teaching, Hove, England: Language Teaching Publications,1992
    [60] 萧国政、吴振国,《汉语法特点和汉民族心态》,华中师范大学学报,1989.4
    [61] 温锁林,《现代汉语语用平面研究》,北京图书馆出版社,2001.8
    [62] 李宁明,《汉语语法“本位”论评—兼评邢福义“小句中枢说”》,世界汉语教学,1997.1
    [63] 王建琦,《关于汉语语言处理的若干理论思考》,华中师范大学学报(人文社会科学版),
    
    
    [64] 宋柔,《统计和规范中的误区》,中文信息处理若干重要问题,科学出版社,2003.11
    [65] 张普、石定果,《论历时中包含有共时与共时中包含有历时》,语言教学与研究,2003.3
    [1] 冯志伟,《中国语料库研究的历史与现状》,
    [2] 张普《关于语感与流通度的思考》,语言文字应用,1999.2
    [3] 张普,《关于大规模真实文本语料库的几点理论思考》,语言文字应用,1999.1
    [4] 孙茂松、邹嘉彦,《汉语自动分词研究评述》,当代语言学,2001.1
    [5] 郑家恒、刘开瑛,《中文文本歧义切分技术研究》,陈力为、袁琦《语言工程》,清华大学出版社 1997
    [6] 梁南元《汉语计算机自动分词知识》,中文信息学报,1989.4
    [7] 何克抗、徐辉、孙波《书面汉语自动分词专家系统设计原理》,中文信息学报,1991.5等
    [8] 张跃、姚天顺《基于结合性自动识别中文姓名》,小型微型计算机系统,1997.10
    [9] 俞允海,《论新词语研究》,湖州师范学院学报,2003.1
    [10] 姚汉铭,《新词语.社会.文化》,上海辞书出版社1998.1
    [11] 刁晏斌,《近10年新词语研究述评》,辽宁师范大学学报(社会科学版),2003.1
    [12] 隋岩,《动态流通语料库的理论和方法》,语言文字应用,2000.4
    [13] 姚大顺等,《基于规则的汉语自动分词系统》,中文信息学报,1990.1
    [14] 周强,《基于语料库和面向统计学的自然语言处理技术介绍》,计算机科学,1995.4
    [15] GB/T13715-92,《信息处理用现代汉语分词规范》,中国标准出版社,1992
    [16] 黄昌宁,《中文信息处理中的分词问题》,语言文字应用,1997.1
    [17] 胡明亮,《汉语语法的‘词’、‘句子’、‘主语’和‘补语’》,美国东北地区文理学院汉语教学讨论会,1996.4
    [18] 孙茂松、左正平、黄昌宁,《消解中文三字长交集型分词歧义的算法》,清华大学学报自然科学版,1999.5
    [19] 马颖华、王永成、苏贵洋,《一种在汉语文本中抽取重复字串的快速算法》,电子学报,2002.12
    [20] 韩洁、周勇、刘少辉,《基于WWW的未登录词识别研究》,计算机科学 2002.12
    [21] 孙茂松、黄昌宁、高海燕、方杰,《中文姓名的自动辨识》,中文信息学报,1995.2
    [22] 张跃、姚天顺《基于结合性自动识别中文姓名》,小型微型计算机系统,1997.10
    [23] 郑家恒、李鑫、谭红叶,《基于语料库的中文姓名识别方法研究》,中文信息学报,2000.14
    [24] 刘秉伟、黄萱菁、郭以昆、吴立德,《基于统计方法的中文姓名识别》,中文信息学报,2000.14
    
    
    [25] 刁晏斌、盛继艳,《近10年新词语研究述评》,辽宁师范大学学报(社会科学版),2003.1
    [26] GB/T15843-1995,《标点符号用法》(国家标准),国家技术监督局1995.12.13批准发布,1996.6.1实施
    [27] 宋柔、戴伟长,《现代汉语二字结构工程》,ICCIP'98国际会议论文集
    [28] 孙茂松、卢红娜、邹嘉彦,《基于隐Markov模型的汉语词类自动标注的实验研究》,清华大学学报(自然科学版),2000.9
    [29] 孙茂松、邹嘉彦,《汉语自动分词研究评述》,当代语言学,2001.1
    [30] 詹卫东,《80年代以来汉语信息处理研究述评》,当代语言学,2000.2
    [31] 刘开瑛,《中文文本自动分词和标注》,商务印书馆,2000
    [32] 韩客松、王永成、陈桂林,《无词典高频字串快速提取和统计算法研究》,中文信息学报,2001.2
    [33] 沈德立主编,《学生汉语阅读过程的眼动研究》,教育科学出版社,2001
    [34] 郑德权、于凤、王开涛、赵铁军,《基于汉语二字应成词的歧义字段切分方法》,计算机工程与应用,2003.1
    [35] 刘利东,《基于组合度的汉语分词决策算法研究》,德州学院学报,2003.2
    [36] 万建成、杨春花,《书面汉语的全切分分词算法模型》,小型微型计算机系统,2003.7
    [37] 李素建、刘群、白硕,《统计和规则相结合的汉语组块分析》,计算机研究与发展,2002.4
    [38] 马颖华、王永成、苏贵祥、张宇萌,《一种基于字同现频率的汉语文本主题抽取方法》,计算机研究与发展,2003.6
    [39] 周强、孙茂松、黄昌宁,《汉语最长名词短语的自动识别》,中文信息学报,1999.2
    [40] 赵军、黄昌宁,《基于转换的汉语基本名词短语识别模型》,中文信息学报,1999.2
    [41] 孙茂松等,《中文姓名的自动识别》,中文信息学报,1994.9
    [42] 孙茂松、邹嘉彦,《汉语自动分词研究中的若干理论问题》,语育文字应用,1995.4
    [43] 孙茂松、左正平,《汉语真实文本中的交集型切分歧义》,汉语计量与计算研究,香港城市大学出版社,1998
    [44] 孙茂松、左正平,《消解中文三字长交集型分词歧义的算法》,清华大学学报1999.5
    [45] 孙茂松、左正平等,《高频最大交集型歧义切分字段在汉语自动分词中的作用》,中文信息学报1999.1
    [46] 吕雅娟、赵铁军、杨沐昀、于浩、李生,《基于分解与动态规划策略的汉语未登录词识别》,中文信息学报,2001.1
    [47] Sinclair. J, Corpus,Concordance,Collocation, Oxford University Press,1991
    [48] Sinclair. J,Collins COBUILD English Grammar, London,1990
    [49] McEnery T, Willson A, Corpus Linguistics, Edinburgh University Press,1996
    
    
    [50] Karin A, Bengt B, English Corpus Linguistics ,Longman Singpore Publishers,1991
    [51] Ooi,Vincent B.Y. ,Computer Corpus Lexicography, Edinburgh University Press,1998
    [52] 胡百华、李行德、汤志祥,《香港的语料库和相关研究概况》,语言文字应用,1997.2
    [53] 邹嘉彦、钱志安、蔡永富,《从汉语共时语料库中“吧”类词探讨新词衍生规律的问题》,“第二届中国社会语言学国际学术研讨会暨中国社会语言学会成立大会”提交论文,香港城市大学,2002.9
    [54] Tsou, B. K., W. F. Tsoi, T. B. Y. Lai, J. Hu, S. W. K. Chan, "LIVAC, A Chinese Synchronous Corpus, and Some Applications", Proceedings of the International Conference on Chinese Language Computer (ICCLC) Chicago,2000
    [55] 邹嘉彦、黎邦洋,《汉语共时语料库与信息开发》,中文信息处理若干重要问题,科学出版社,2003.11
    [1] 王瑞昀,《认知语言学理论与阅读理解》,江苏大学学报(高教研究版),2003.4
    [2] 莫雷、王瑞明、何先友,《文本阅读过程中的信息协调性整合》,心里学报,2003.6
    [3] 高立群,《离散还是连续?—语义信息加工性质的实验研究》,心理学报,2001.5
    [4] 张明、陈骐《记忆提取研究的新进展》,心理科学进展,2002.2
    [5] 李志雪,《试论句子理解中几个主要的心理语言学模型》,解放军外国语学院学报,2003.5
    [6] 熊哲宏,《“心理模块”概念辨析》,南京师大学报(社会科学版),2002.6
    [7] Fodor, J. Modularity of Mind[M] . Cambridge: The MIT Press, 1983
    [8] Chomsky, N. Language and problems of knowledge[M] . Cambridge, MA: MIT Press, 1988.
    [9] 刘例东,《基于组合度的汉语分词决策算法研究》,德州学院学报,2003.4
    [10] 傅赛香、袁鼎荣、黄伯雄、钟智,《基于统计的无词典分词方法》,广西科学院学报,2002.11
    [11] 刘芳芳、汲传波,《关于现代汉语的建构的研究》,锦州师范学院学报,2002.1
    [12] 朱靖波、姚天顺,《中文信息抽取》,东北大学学报(自然科学版),1998.2
    [13] 沈洲、王永成、刘功申,《改进的中文字串多模式匹配算法》,情报学报,2002.2
    [14] 李珩、谭咏梅、朱靖波、姚天顺,《汉语组块识别》,东北大学学报(自然科学版),2004.2
    [1] 飞思科技产品研发中心,《DELPHI高级编程》,电子工业出版社,2002.1
    
    
    [2] 林连书,《应用语言学实验研究方法》,中山大学出版社,2001.8
    [3] 国家语言文字工作委员会汉字处,《现代汉语通用字表》,语文出版社,1998.4
    [4] 徐复岭等,《现代汉语常用虚词词典》,浙江教育出版社,1998.3
    [1] 柯惠新、黄京华、沈浩,《调查研究中的统计分析方法》,北京广播学院出版社,2000.7
    [2] 侯亚非主编,《社会调查研究原理与方法》,华文出版社,1998

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700