基于文本层次模型的Web概念挖掘研究

英文题名：Web Concept Mining Based on Text Layer Model
副题名：基于概念语义网络的自动标引和自动分类研究
英文副题名：Automatic Indexing and Automatic Classifying Based on Concept Semantic Network
作者：章成志
论文级别：硕士
学科专业名称：农业经济及管理
中文关键词：文本层次模型 ; Web概念挖掘 ; 加权标引 ; 自动标引 ; 自动分类 ; Dice测度 ; 同义词识别 ; 字词正向扩展 ; 未登录词识别
英文关键词：web concept mining ; text layer model ; knowledge database ; recognition of synonyms ; recognition of unregistered words ; automatic indexing ; automatic classifying
学位年度：2002
导师：侯汉清
学科代码：120301
学位授予单位：南京农业大学
论文提交日期：2002-06-01
答辩委员会主席：苏新宁

摘要

本论文针对目前Web文本挖掘工具的不足之处，综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术，数理统计知识，构建了一个简单易行的信息提取模型，即文本层次模型，针对因特网上三种结构类型数据，进行了基于知识库，即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义：使分类知识库建设系统化和流程化；提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案；提高同义词的识别能力；增强未登录词挖掘能力。
     文本分类知识库的构建主要是利用了数据挖掘技术，数理统计知识，在进行关键词与分类号的相关度度量时，我们为了克服以前度量方法的缺陷，引入了Dice测度的方法。为了确定知识库的规模，我们对Web概念挖掘系统的实际运行结果，进行抽样分析，选择了一个整体性能较好的分类知识库，另外还引入篇名知识来进一步完善分类知识库。
     在进行Web文本的主题提取时，为了区分网页不同标引源的主题表达能力，本文根据一定规模的数据调查结果，确定了具有文献依据的权重方案，对文本不同标引源的测试，获得了页面和普通文本的标引源选择方案，随后还对文本多主题挖掘进行了初步的研究。
     在同义词的识别上，首次引入《同义词词林》，作为语义体系，提出了基于《同义词词林》语义体系的同义词识别算法，利用词汇间的语义相似度度量，来进行同义词识别，提高了同义词识别系统的识别性能。此外，在进行文本的自动分类时，将语义相似度匹配代替了字面相似度匹配，提高了文本的自动分类能力。
     为了解决未登录的挖掘问题，提出了基于字词正向扩展的未登录词识别方法，不同于N-Gram模型的是，本方法不需庞大的语料库，利用局部统计信息即可识别出具有检索意义的未登录词。
     本文最后给出了系统的实际测评结果，证明整个系统的可行性。
     Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。
To improve the performance of web text mining tools, this paper try on using automatic indexing and automatic classification techniques , data mining technology , pattern recognition technology and mathematical statistics method to create a practical model , i.e. Text Layer Model , and it can extract information from three kinds of data on the Internet. The significance of this paper is as follows: providing a new method to create the knowledge database used for automatic classifying, providing the location weighting algorithm for information extraction, presenting a new methods to improve the performance of Chinese recognition of synonyms and unregistered words.
    The creating of the knowledge database used for automatic classifying is base on data mining technology and mathematical statistics knowledge. We use the Dice measure, support degree and confidence degree to create four kinds database of different dimensions through different thresholds of correlation degree and interesting degree. Lastly, we select one of database through the test by concept mining system.
    To distinguishing the subject expression ability of different parts of text, including 1800 Web pages, we have a investigative statistics and providing the location weighting algorithm for information extraction.
    To enhance the ability of the recognition synonyms, we use the synonyms dictionary as the semantic system and providing the new algorithm of recognition synonyms base on the synonyms dictionary. We use this algorithm to calculate the similarity degree among the words and match the subject in the automatic classification.
    We provide a new method to enhance the ability of mining the unregistered words, i.e. recognition method base on the character or word expanding. Different from the N-Grams Model, this method uses the location information of the text to recognize unregistered words.
    At the end of the paper, we test and evaluate concept mining system, the deficiency of systems is also detailed objectively..

引文

1 Han，J.W,Kamber,M.数据挖掘：概念与技术．北京：机械工业出版社，2001．3-4
    2 王静，孟小峰．半结构化数据模式及模式的抽取研究．计算机世界，2001，(14)
    3 栗松涛．XML程序设计．北京：清华大学出版社，2001，11
    4 杨建武，陈晓鸥．半结构化文档集的结构模式提取的研究与实现．计算机工程，2001，10
    5 赵丰年．实用网页设计技术HTML、CSS与DHTML．北京：机械工业出版社．2000，8
    6 Teb Padova.Acrobat PDF实用大全．北京：中国水利水电出版社．2000，7
    7 电脑报．1998，(37)
    8 邹涛，王继成等．基于WWW的资料搜集系统设计与实现．情报学报，1999，18(3)
    9 张琪玉．网络信息检索工具增强关键词检索功能的措施．图书馆杂志，2001，(1)
    10 黄金贵．论同义词之“同”．浙江大学学报，2000，8
    11 张世禄．同义为训与同义并列复合词的产生，扬州师范学院学报，1981，(3)
    12 洪成玉．古汉语同义词及其辨析方法．中国语文．1983，(6)
    13 曹先擢．谈古汉语同义词辨析．文科月刊．1988，(1)
    14 周光庆．古汉语词汇学简论．武汉：华中师范大学出版社，1989
    15 郭锡良等．古代汉语，北京：语文出版社，1992
    16 中国社会科学院语言研究所．现代汉语词典．北京：商务印书馆，1998，(10)
    17 王振昆等．语言学教程．北京：外语教学与研究出版社．1998，12
    18 侯汉清等．主题法导论．北京：北京大学出版社．1991，9
    19 王源．后控规范的计算机处理．现代图书情报技术，1993，(2)
    20 宋明亮．报纸文献机助自由标引研究及对汉语后控制词表动态维护的思考．张琪玉指导．中国人民解放军空军政治学院硕士论文，1994，10
    21 吴志强．经济信息检索后控制词表的研制．侯汉清指导．南京农业大学硕士论文，1999，6
    22 阮晓明．《中文科技期刊数据库》同义词词表的研制及其作用．国际贸易与科技交流，1999，10(8)
    23 朱毅华．智能搜索引擎中的同义词识别算法研究．侯汉清指导．南京农业大学硕士论文，2001，6
    24 吕叔湘．大家来关心新词新义．辞书研究，1984，(1)
    25 肖新．说词缀“户”、“热”、“化”——新词产生的途径之一．学汉语，1994，(8)
    26 吴淮南．新词小识．南京大学学报，1994，(4)
    27 朱原．新词与词典．辞书研究，1995，(4)
    28 周静．现代汉语新词的词型特点分析．河南大学学报，1995，(1)
    29 李建国．新词新语研究与辞书编纂，辞书研究，1996，(3)
    30 李建国．再论新词新语研究与辞书编纂．语文建设，1997，(11)
    31 徐波．新词新语的文化心理透视．杭州师范学院学报，1998，(4)
    32 朱永锴等．二十年来现代汉语新词语的特点及其产生渠道．语言文字应用，1999，(2)
    33 陈文博．新词新语的产生及其社会背景分析．新疆师范大学学报，1999，(4)
    34 尹玲．我国新词汇的特点及对社会发展的影响．江西社会科学，2000，(12)
    35 陈小燕．汉语新词新语的文化考察．西南师范大学学报，2001，(2)
    36 陆晓文．中国主流语言中经济类新词初探．辞书研究，2001，(4)
    37 Chen,K.J.,Bai,M.H."Unknown word detection for chinese by a corpus-based learning mthod",Computer Linguistics and Chinese Language Processing,1998,3(1),27-44
    38 Chen,C.J.,Bai,M.H.,Chen,K.J."Category gessing for Chinese unknown words",

    Proceedings of NLPRS'97,Phuket,Thailand,December 2-4,1997,35-40
    39 陈克健，陈超然，语料库为本的中文复合词构词律模型研究．Round Table Conference:Quantitative and computational sudies on the Chinese language,Hongkong,1997
    40 孙茂松等．汉语自动分词研究中的若干理论问题．语言文字与应用，1995，4
    41 张玥杰等．英汉机译中基于相似性与猜测规则识别未登录词，东北大学学报，1998，12
    42 陈小荷．自动分词中未登录词问题的一揽子解决方案．语言文字应用，1999，3
    43 孙茂松．汉语自动分词研究评述．当代语言学，2001，1
    44 吕雅娟等．基于分解与动态规划策略的汉语未登录词识别．中文信息学报，2001，1
    45 冯志伟．绝妙的空格．天极网专栏文章，2001，3，9 http://www. chinabyte.com/column/column_page.shtm?column_type=comp_search&coluid=964
    46 吴立德等．大规模中文文本处理．上海：复旦大学出版社，1997
    47 刘秉伟等．基于统计方法的中文姓名识别．中文信息学报，2000，3
    48 冯志伟．汉字和汉语的计算机处理．当代语言学．2001，1
    49 张俊盛．多语料库作法之中文姓名辨识．中文信息学报，1992，6
    50 宋柔等．基于语料库和规则库的人名识别法．计算语言学研究与应用，北京；北京语言学院出版社，1993
    51 Sproat, R., Shih, C. L. A Statistical method for finding word boundaries in Chinese text. Computer Processing of Chinese and Oriental Languages 1993. 336-249
    52 Hsin-Hsi Chen Jen-Chang and Lee, "The Identification of organization names in Chinese texts," Communication of Chinese and Oriental Languages Information Processing Society, 4(2), Singapore, 1994, 131-142
    53 孙茂松等．中文姓名的自动辨识．中文信息学报，1995，9
    54 沈达阳等．中国地名的自动辨识．计算语言学进展与应用，北京：清华大学出版社，1995，10
    55 黄萱菁等．基于机器学习的无需人工编制词典的切词系统．模式识别与人工智能，1994，4
    56 张小衡等．中文机构名称的识别与分析．中文信息学报，1997，4
    57 Sun, M. S., Shem D. Y., et al. 1997. Aseg & Tag1.0: A practical word segmenter and POS tagger for Chinese texts.Proceedings of the 5th Conference on Applied Natural Language Processing, 119-126. Washington D. C.
    58 张跃，姚天顺．基于结合性自动识别中文姓名．小型微型计算机系统，1997，10
    59 张玥杰，姚天顺．英汉机译中基于相似性与猜测规则识别未登录词．东北大学学报，1998，12
    60 刘挺，吴岩．串频统计和词形匹配相结合的汉语自动分词系统．中文信息学报，1998，1
    61 陈小荷．自动分词中未登录词问题的一揽子解决方案．语言文字应用，1999，3
    62 刘秉伟，黄萱菁等．基于统计方法的中文姓名识别．中文信息学报，2000，3
    63 吕雅娟，赵铁军等．基于分解与动态规划策略的汉语未登录词识别．中文信息学报，2001，1
    64 黄德根，杨元生等．基于统计方法的中文姓名识别．中文信息学报．2001，2
    65 胡俊峰，俞士汶．唐宋诗之计算机辅助深层研究．北京大学学报，2001，9
    66 周正宇，李宗葛．一种新的基于统计的词典扩展方法．中文信息学报，2001，5
    67 金翔宇等．一种中文文档的非受限无词典抽词方法．中文信息学报，2001，6
    68 增上万条新词《新华词典》亮出新面孔．北京晚报，2001，1，8
    69 中国社会科学院语言研究所词典编辑室编．现代汉语词典．北京：商务印书馆．1998，10
    70 童庆炳，文学理论教程．北京：高等教育出版社，1992，6
    71 宋克强，许培基译著．冒号分类法解说及类表．北京：书目文献出版社．1986，3
    72 Hind Join, Organizational patterns in discourse, syntax and semantics: discourse and Syntax. New York: Academic Press, 1979, 12:137-158


    73 张晓龙，姚天顺．基于文本句法的文本生成模型．中文信息学报，1995，9(1)
    74 迟呈英，麻志毅．文本理解与汉语文本结构分析．中文信息，1997，(1)
    75 朱靖波，姚天顺．中文信息自动抽取．东北大学学报，1998，19(1)
    76 林鸿飞，战学刚等．文本层次分析与文本浏览．中文信息学报，1999，4
    77 林鸿飞，战学刚等．基于概念的文本结构分析方法．计算机研究与发展，2000，3
    78 林鸿飞，战学刚等．文本结构分析与基于示例的文本过滤．小型微型计算机系统，2000，4
    79 薛翠芳，郭炳炎．语文本结构的自动分析．情报学报，2000，4
    80 胡道元．网络设计师教程．北京：清华大学出版社，2001，5
    81 Dunning T. Accutate Methods for the Stastistics of Surprise and Coincidence.comutational linguistic, March 1993, 19(1), 61-74
    82 Dialle, B. Study and implementation of combined techniques for automatic extraction of terminology. The balancing act: combining symbolic and statistical approaches to language. Proceeding of the workshop. New Mexico: New Mexico State University, 1994
    83 Goetz, D. V. Subject headings for everyone; popular Library of Congress Subject Headings with Dewey Numbers, OCLC Newsletter, May/June, 1998, 23-33
    83 张雪英．经济信息检索词汇转换系统的设计．侯汉清指导．南京农业大学硕士论文，1999，6
    85 张宇萌．后控词表系统研究．马张华指导．北京大学硕士毕业论文，2000，6
    86 薛鹏军．基于知识库的中文网络搜索工具—经济信息智能搜索引擎研究．侯汉清指导．南京农业大学硕士毕业论文，2001，6
    87 王玮等．关联规则的相关性研究．计算机工程，2000，(3)
    88 同1
    89 肖明．WWW科技信息资源自动标引的理论与实践研究．沈英指导．中国科学院研究生院博士毕业论文．2000，6
    90 张琪玉．文献主题的构成因素及层次．图书情报知识，1985，(1)
    91 成颖，史九林：自动分类研究现状与发展，情报学报，1999(1)
    92 张琪玉．分类法主题法一体化自动标引系统的基本原理和方法．图书馆论坛，1995，(6)
    93 罗式胜．文献计量学概论．广州：中山大学出版社，1994，9
    94 哈罗德．博科，查尔斯.L.贝尼埃合著，赖茂生，王知津合译．文摘的概念和方法，书目文献出版社，1991，6
    95 Baxendale, P. E. Machine-Made index for technical literature-an experiment. IBM Journal of Research and Development, Vol. 2, No. 4, 1958, 354-361
    96 张琪玉．情报语言学基础．武汉大学出版社，1997，9
    97 赵云志，统计分析法自动标引的改进，情报学报，2000，(8)
    98 http://www.lub.lu.se/tk/demos/class-ws/weighting.htm, 2001 年5月
    99 http://www.cei.gov.cn, 2001年7
    100 http://www.homeway.com.cn, 2002年3月
    101 http://202.84.17.28/csnews/default.htm, 2002年3
    102 http://www.chedu.com, 2001年7月
    103 http://www.psychcn.com, 2001年7月
    104 同 18
    105 吴岩，李秀坤等．文章意义段划分的数学模型．哈尔滨工业大学学报，1998，(12)
    106 刘功中，王永成等．基于概念粘合度(CC)的多主题分析．情报学报，2002，(1)
    107 梅家驹．同义词词林．上海：上海辞书出版社，1983，10
    108 穗志方、俞士汶．概念规范化研究中的自然语言处理策略，《第二届术语学、标准化与技术

    传播国际学术会议论文集》．1997，8，367-374
    109 袁晖，阮显忠．现代汉语缩略语词典．北京：语文出版社，2002，1
    110 中国社会科学院语言研究所．现代汉语词典．北京：商务印书馆，1998，10
    111 白栓虎．汉语词切分及词性自动标注一体化．中文信息处理应刷平台工程．电子工业出版社．1995，10
    112 http://www.chinainfobank.com,2002年5月
    113 http://www.cnjj.com,2002年5月
    114 http://www.htsc.com.cn,2002年5月
    115 http://www.fec.com.cn,2002年5月

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700