基于中国主流报纸动态流通语料库的对外汉语报刊新闻主题词群及相关研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本文以对外汉语报刊新闻教学改革为动因,以中国主流报纸动态流通语料库为研究基础,进行了报刊新闻资源库的初步建设,基本形成一个报刊新闻分类资源库。该资源库对报刊新闻文本按领域分类,利用计算机语言信息处理技术对文本进行分词处理和统计,得出各类领域词表。从各类领域词表中用领域相交的方法提取各领域间的通用词语;再利用通用词表用词汇分离的方法提取各领域一级主题词群、各领域中的二级子领域主题词群、子领域中更下位的三级主题词群。主题词群的提取研究是在几个不同的层级上进行的。提取的主题词群带有很强的主题特征。在单文本的主题词群提取实验中,这些主题特征词语对判断文章的主题相关度有较好的效果。本文还对主题词群和报刊新闻主题教学的关系进行了探讨,对主题词群提取的准确度进行了测试,也初步探索了报刊新闻文本的主题相关度和难易度的测量方法。主题词群的研究为报刊新闻教学提供了一个科学、实用的研究平台,同时也为词汇研究探索了一条新的研究思路和方法。
     研究路线:
     报刊新闻资源库——通用词语——主题词群提取及相关研究——主题教学
     围绕主题词群提取这个中心,本文取得了以下的研究成果:
     1、构建了一个基于主流报纸动态流通语料库的汉语报刊新闻资源库。
     该报刊新闻资源库目前的语料有1.7亿字,33545个文本。利用计算机技术对大规模的真实语料进行了处理,初步建立了对外汉语报刊新闻教学资源库,使报刊新闻素材能够及时得到动态更新。也为报刊新闻教学研究提供了一个科学、实用的研究平台,填补了对外汉语教学研究领域的一项空白。
     2、基于报刊新闻资源库初步建立了一个报刊新闻教学分类体系
     参考了各种权威的分类法,考察了网页文本分类,对现有的几种对外汉语报刊新闻教材的主题分类作了考察,最后综合各种相关因素提出了报刊新闻资源库的分类框架。在报刊新闻资源库内初步建立了一个有19个领域、91个子领域、189个下位主题的报刊新闻教学领域分类体系,基本涵盖了报刊新闻的主要领域,为报刊新闻和其他课程的教学提供支持。
     3、基于十九个领域的分类词表提取了报刊新闻通用词表
     本研究的重点是主题词群的提取研究,提取报刊新闻通用词表的目的是为了用词汇分离的方法有效地提取主题词群。因此本通用词表是为词语的领域分类服务的。我们在报刊新闻资源库内提取了在十九个领域间都通用的词语,由于通用词表是在大规模中国主流报纸语料库的基础上产生的,具有领域通用和动态更新的特点,对主题词群的提取具有良好的效果。
     4、运用词汇分离的方法提取了不同层级的主题词群
     用词汇分离的方法将领域词表、子领域词表中的通用词语和专用词语进行
Teaching Chinese to foreigners is a great undertaking for the Chinese nation. More and more foreigners come to China to acquire latest information from mainstream Newspapers and other media. This research was drove by the requirement of the teaching reform on Newspaper Reading Course in BLCU. This paper disserts how to build a Newspaper resource database and extract theme words group from it based on the large-scale Chinese mainstream Newspaper Dynamic Circulation Corpus, all the study is under the theory of Dynamic Updating of Language and Knowledge. First, we established a classified Newspaper resource database on the DCC corpus, and we got 19 domain word lists from natural language in the database. Then we extract the general words by making the 19 domain word list across together. The most important research is the extraction of theme words group by the means of making the vocabulary apart. The theme words group is delaminated into different layer — A domain theme words group; B subdomain theme words group; C hypogynous theme words group; and single text theme words group. In the course of the experiment, all the theme words are strongly reflect the feature of the domain, subdomain, hypogynous theme and single text. We can use these different layer feature words to measure the extent of the theme semantic relevancy, we also try to explore the way to weigh the degree of the text difficulty. The research of the theme words group is benefit to the Newspaper Reading Course in the actual teaching. It provides a scientific and applied research platform to the Teaching Chinese to foreigners, and also, it provides a new landscape to the vocabulary study.
    Research route:
    Newspaper resource database--general words lists-- the extraction of theme
    words group and relevant research-- theme-centered teaching
    This paper focuses on the extraction of theme words group and relevant research as follows:
    1 Built a Newspaper resource database based on the large-scale Chinese mainstream Newspaper Dynamic Circulation Corpus
    Dynamic information resource system is from the material process of the instruction. Dynamic information is another kind of education information, It is very significant for studying and teaching. The range of content is wide, and its representation is diversity. This resource database has a total of 170,633,995 characters, 33545 text files. It is fills up the blank of the research of the Teaching Chinese to foreigners.
    2 Built a Classed Newspaper teaching system based on the Newspaper resource database After study many authoritative classify system and several Newspaper teaching material, we
    built a layered classed Newspaper teaching frame. This frame contains 19 different domains,91 subdomains, 189 hypogynous themes, basically cover all the main domains in the Newspaper and press. It is benefit to the teaching on the Newspaper and other courses.
    3 Extract a Newspaper and press general words list from the 19 domain words lists
引文
[1] Ann Ryan & Alison Wray, Evolving Models of Language~*, (Eds), Cambridge University Press, 1997
    [2] Batia Laufer & Deville, Taking the Easy Way Out: Non Use and Misuse of Contextual Clues in EFL Reading Comprehension~*, English Teaching Forums 23 (2):7-10, 20, 1985
    [3] Biber D, Conrad S. and Reppen R. (1998). Corpus Linguistics. Foreign Language Teaching and Research Press, Cambridge University Press.
    [4] Brill, E. (1995). Transformation-based error-driven learning and natural language processing:a case study in part-of-speech tagging. Computational Linguistics, 21(4).
    [5] Church, K. (1988). A stochastic parts program and noun phrases parser for unrestricted text. In Proceedings of the Second Conference on Applied Natural Language Processing.
    [6] Gass & Selinker, Second Language Acquisition: an introductory course~*, Amsterdam: John Benjamins, 1994
    [4] Mitkov, R. (2001). Term extraction and automatic indexing. Handbook of Computational Linguistics.
    [5] Ramshaw, L. and Marcus, M. (1995). Text chunking using transformational-based learning. In Proceedings of the Third Workshop on Very Large Corpora.
    [6] Sinclair, J. (2000). Corpus Concordance Collocation. Shanghai Foreign Language Teaching and Research Press.
    [7] Veenstra, J. (1999). Memory-based text chunking. Nikos E (Ed. ), Mchine Learning in Human Language Technology.
    [8] Voutilainen, A. (1993). NPtool, a detector of English noun phrases. In Proceedings of of the Workshop on Very Large Corpora.
    [9] Voutilainen, A. and Padro L. (1997). Developing a hybrid NP parser. In Proceedings of the 5th Conference on Applied Natural Language..
    [10] Nation, Teaching and Learning Vocabulary~*, New York: Newbury House, 1990.
    [11] Bloomfield,L(1933).Language.中译本:袁家骅等译,《语言论》1980,北京:商务印书馆
    [12] Nation, Vocabulary Size, Growth and Use~*, In R. Schreuder and B. Weltens (eds. ) The Bilingual Lexicon, Ⅱ5-34, Amsterdam/Philadelphis: John Benjamins, 1993
    [13] Leech,G.(1983).Semantics.中译本:李瑞华等译,《语义学》1987,上海:上海外语教育出版社.
    [14] McCawley,J.D.(1993).Everything that Linguists Have Always Wanted to Know about Logic but wore ashamed to ask.中译本:王维贤等译,《语言逻辑分析》1998,杭州:杭州大学出版社.
    [15] Sinclair, J. (1990). Collins Cobuild English Grammar. 中译本:任??绍曾等译,《英语语法大全》1999,北京:商务印书馆.
    [16] Woods,A.,Fletcher,P.and Hughes,A.(1985).Statistics in Language Studies.中译本:陈小荷等译,《语言研究中的统计方法》2000,北京:北京语言文化大学出版社.
    [17] Saussure,F.(1917).Course in General Linguistics.中译本:岑麒祥译,《普通语言学教程》1994,北京:商务印书馆.
    [18] 叶斯柏森,《语法哲学》,语文出版社 1988
    [19] 吕叔湘,《汉语语法分析问题》,商务印书馆 1979
    [20] 王力《中国语法理论》,《王力文集》第一卷,山东教育出版社 1984
    [21] 王力《汉语语法纲要》,《王力文集》第三卷,山东教育出版社 1985
    [22] 赵元任《语言问题》商务印书馆 1980
    [23] 刘珣《对外汉语教育学引论》北京语言文化大学出版社,2000
    [24] 张志公主编,《现代汉语》(试用本),人民教育出版社 1982
    [25] 林杏光《词汇语义和计算语言学》语文出版社 1999
    [26] 陆志韦《汉语的构词法》科学出版社 1964
    [27] 高名凯、石安石,《语言学概论》,中华书局 1963
    [28] 王德春《语言学概论》上海外语教育出版社 1997
    [29] 常宝儒《现代汉语频率词典的研制》《现代汉语定量分析》 上海教育出版社 1989
    [30] 尹斌庸、方世增《词频统计的新概念与新方法》《语言文字应用》1994年第2期
    [31] 陈小荷《动宾组合的自动获取与标注》黄昌宁 董振东主编《计算语言学文集》清华大学出版社 1999
    [32] 陈小荷《现代汉语自动分析——Visual C++实现》北京语言文化大学出版社2000
    [33] 符淮青《现代汉语词汇》北京大学出版社 2003
    [34] 曹炜《现代汉语词汇研究》北京大学出版社 2004
    [35] 董振东 知网(HowNet)(1999).http://www.keenage.com
    [36] 董振东 董强《面向信息处理的词汇语义研究中的若干问题》《语言文字应用》2001年第3期.
    [37] 冯志伟《现代术语学引论》语文出版社 1997年8月
    [38] 冯志伟《应用语言学综论》广东教育出版社 1999年
    [39] 冯志伟《中国语料库研究的历史与现状——语料库研究回顾和问题》国际中文电脑学术会议论文集November 27—29,2001 Singapore
    [40] 冯志伟《自然语言的计算机处理》上海外语教育出版社 1996
    [41] 段慧明、松井久仁於、徐国伟、胡国昕、俞士汶《大规模汉语语料库的制作与使用》《语言文字应用》2000年第2期
    [42] 邢红兵《基于第三代语料库的信息领域术语动态更新》《语言文字应用》2000年第2期
    [43] 李竹《中文信息处理与现代汉语词类研究》《世纪之交的中国应用语言学研究》华语教学出版社 1999年12月
    [44] 刘开瑛《现代汉语自动分词评测技术研究》《语言文字应用》1997年第1期
    [45] 赵金铭主编《对外汉语研究的跨学科探索》北京语言大学出版社 2003[46] 赵金铭主编 《汉语研究与对外汉语教学》 语文出版社 1997
    [47] 郭绍虞 《同义词词林》序 上海辞书出版社 1983
    [48] 黄昌宁 《关于处理大规模真实文本的谈话》《语言文字应用》1993年第2期.
    [49] 黄昌宁 《统计语言模型能做什么》《语言文字应用》2002年第1期
    [50] 黄昌宁 李涓子 《语料库语言学》北京 商务印书馆 2002
    [51] 李文捷等 《基于语料库的中文最长名词短语的自动抽取》 陈力为,袁琦主编《计算语言学进展与应用》 清华大学出版社 1995
    [52] 李芸、王强军、张普2001,信息技术领域术语自动提取和动态更新研究,辉煌二十年——中国中文信息学会二十周年学术会议论文集
    [53] 刘开瑛,《中文文本自动分词和标注》 商务印书馆 2000
    [54] 刘群,李素建 《基于<知网>的词汇语义相似度计算》 “第三届中文词汇语义学研讨会”论文,中国台北 2002
    [55] 马真、陆俭明 《“名词”+“动词”词语串浅析》《中国语文》1996年第3期.
    [56] 梅家驹等《同义词词林》(第2版)上海辞书出版社 1988
    [57] 崔希亮《语言理解与认知》北京语言文化大学出版社 2001
    [58] 施关凎《现代汉语里的向心结构和离心结构》《中国语文》1998年第4期.
    [59] 隋岩《动态流通语料库理论的概念和方法》《语言文字应用》2000年第2期
    [60] 隋岩、张普《1997年中文报纸媒体流通度分析》 黄昌宁主编《计算语言学文集》 清华大学出版社,1999年10月
    [61] 孙宏林 《从标注语料库中归纳语法规则:“V+N”序列实验分析》 陈力为,袁琦主编《语言工程》 清华大学出版社 1997
    [62] 于根元,《二十世纪的中国语言应用研究》,书海出版社,1996
    [63] 姚汉铭,《新词语·社会·文化》,上海辞书出版社,1998
    [64] 孙茂松,黄昌宁,方捷 《汉语搭配定量分析初探》《中国语文》1997年第1期.
    [65] 孙茂松,左正平,邹嘉彦《高频最大交集型歧义切分字段在汉语自动分词中的作用》《中文信息学报》1999年第1期.
    [66] 孙茂松,邹嘉彦 《汉语自动分词研究评述》《当代语言学》2001年第1期.
    [67] 翁富良、王野翊《计算语言学导论》北京 中国社会科学出版社 1998
    [68] 黄伯荣、廖序东《现代汉语》(增订三版)高等教育出版社,2002
    [69] 陈章太等《世纪之交的中国应用语言学研究》华语教学出版社 1999
    [70] 俞士汶《大规模标注汉语语料库开发的基本经验》国际中文电脑学术会议论文集November 27—29,2001 Singapore
    [71] 俞士汶,段慧明,朱学锋《汉语词的概率语法属性描述》《语言文字应用》2001年第3期
    [72] 刘润清编著,《外语教学中的科研方法》,外语教学与研究出版社,2002
    [73] 鲁健骥 外国人学习汉语的词汇偏误分析《语言教学与研究》1987第4期
    [74] 张国煊,郁梅,王小华.(1995).基于语料库的汉语边界划分的研究.见:??陈力为,袁琦主编《计算语言学进展与应用》,北京:清华大学出版社.
    [75] 张昊琪,周强.(2001).大规模真实文本中汉语动词语法搭配模板的自动识别.见:黄昌宁,张普主编,《自然语言理解与机器翻译》,北京:清华大学出版社.
    [76] 张敏.(1998).《认知语言学与汉语名词短语》.北京:中国社会科学出版社.
    [77] 赵军.(1998).汉语基本名词短语的识别及结构分析.清华大学计算机系博士论文.
    [78] 周强.(1995).基于语料库和面向统计学的自然语言处理技术介绍.《计算机科学》,22(4).
    [79] 周强,孙茂松,黄昌宁.(2000).汉语最长名词短语的自动识别.《软件学报》,第11卷.
    [80] 朱德熙.(1985).《语法答问》.北京:商务印书馆.
    [81] 张普等,GB12200.1-90《汉语信息处理词汇01部分:基本术语》[M]中国标准出版社,1991
    [82] 张普,《关于汉语语料库的建设与发展问题的思考》[A]载《中文信息处理若干重要问题》,科学出版社,2003
    [83] 张普,《主持人的话——“语言知识动态更新”是语言信息处理领域的一个新的命题》[J]载《语言文字应用》,2000年第2期。
    [84] 邹嘉彦、黎邦洋,《汉语共时语料库与信息开发》[A]载《中文信息处理若干重要问题》,科学出版社,2003
    [85] 张普、石定果,《论历时中包含有共时与共时中包含有历时》[J]2002年首届社会语言学国际研讨会报告,载《语言教学与研究》2003年第3期。
    [86] 张普,《关于大规模真实文本语料库的几点理论思考》[J]载《语言文字应用》1999年第1期。
    [87] 张普,《关于控制论与动态语言知识更新的思考》[J]载《语言文字应用》,2001年第4期—2002年第5期。
    [88] 张普,关于语感与流通度的思考 [J]《语言教学与研究》 1999年第2期
    [89] 张普(2001),流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究,辉煌二十年——《中国中文信息学会二十周年学术会议论文集》。
    [90] 北京语言学院语言教学研究所,现代汉语频率词典,北京语言学院出版社,1986年6月
    [91] 张普《信息处理用语言知识动态更新的总体思考》《语言文字应用》2002年第2期
    [92] 张普等,GB12200.1-90《汉语信息处理词汇01部分:基本术语》[M]中国标准出版社,1991年。
    [93] 俞士汶 朱学锋《关于汉语信息处理的认识及其研究方略》《语言文字应用》2002年第2期
    [94] 徐波 孙茂松 靳光瑾主编《中文信息处理若干重要问题》科学出版社,2003年11月
    [95] 孙茂松《对统计语言模型的若干认识》,《中文信息处理若干重要问题》徐波 孙茂松 靳光瑾主编 科学出版社,2003年11月
    [96] 袁毓林《基于统计的语言处理模型的局限性》,《语言文字应用》2004年第??2期
    [97] 宋柔《统计和规范中的误区》《中文信息处理若干重要问题》徐波 孙茂松靳光瑾主编 科学出版社,2003年11月
    [98] 王强军,基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究,北京语言大学博士学位论文,2003。
    [99] 李芸,信息科学和信息技术术语概念体系研究,北京语言大学博士学位论文,2003。
    [100] 隋岩,基于“动态流通语料库”的“有效字符串”提取研究,北京语言大学博士学位论文,2004。
    [101] 甘瑞瑗,国别化《对外汉语教学用词表》制定的研究:以韩国为例,北京语言大学博士学位论文,2004。
    [102] 刘华 基于关键短语的文本内容标引研究 北京语言大学博士学位论文 2005
    [103] 郑泽之 基于动态流通语料库的汉语字母词语识别及考察研究 北京语言大学博士学位论文 2005
    [104] 杨建国 基于动态语料库的熟语单位研究 北京语言大学博士学位论文 2005
    [105] 杨尔弘 突发事件信息提取研究 北京语言大学博士学位论文 2005
    [106] 国家对外汉语教学领导小组办公室汉语水平考试部 《汉语水平词汇与汉字等级大纲》 北京语言学院出版社,1992
    [107] 孙瑞珍主编 《中高级对外汉语教学等级大纲》 北京大学出版社 1995
    [108] 关文玉 《谈语料库在语法教学中的运用》[J]国外外语教学 2005.2
    [109] 侯汉清 薛鹏军 《中文信息自动分类用知识库的设计与构建》[J]情报学报 2003.6
    [110] 彭瑞情 王世巽 《报刊阅读教程》(上、下)北京语言大学出版社 2004
    [111] 刘士勤 等 《新闻听力教程》(上、下)北京语言大学出版社 2001
    [112] 白崇乾 朱建中 《报刊语言基础》(上、下)北京语言大学出版社 2001
    [113] 吴丽君 《新编汉语报刊阅读教程》(初、中、高)北京大学出版社 2000
    [114] 周上之 Susian Staechle《中文报刊阅读教程》 北京大学出版社 2004
    [115] 吴雅民 《读报知中国报刊阅读基础》北京大学出版社 2002
    [116] 吴成年《读报纸 学中文——中级汉语报刊阅读》北京大学出版社 2002

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700