短文本语义过滤技术的研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着互联网的迅速发展和广泛普及,人们越来越依赖互联网来查询所需要的信息。因为网络中大部分信息是以文本方式存放,因此人们对文本的过滤技术要求越来越高。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,不能根据文本的上下文较好地理解文本的语义进行过滤,因而过滤的效果难以满足人们智能化的要求。
     本文主要结合中文信息处理知识,提出并实现了基于短文本的语义过滤算法。该算法包括对短文本分词,词性标注,句法分析,生成语义框架,计算短文本之间的语义框架相似度,短文本过滤等关键环节。利用基于多层隐马模型的分词方法对短文本进行分词,词性标注和消歧,分词和词性标注支持北大标准,973标准,XML格式。对短文本的句子进行句法分析,借助语法规则库和句法分析信息,提取出短文本的领域,行为主体,行为动词,行为受体,时间,地点等信息,填充语义框架,按照给定的距离函数和相似度计算规则,计算短文本之间的相似度,最后根据相似度是否大于阈值决定过滤与否。
     此算法对短文本进行了准确度较高的分词和词性标注,并对短文本的句子进行了句法分析,句法分析充分考虑了短文本语义块的分离、句蜕和歧义等等特殊语境,然后提取语义框架,然后再将短文本之间的语义相似度的比较转换为数学计算,量化了短文本间的语义相似度,改进了框架相似度的计算公式,增加了框架相似度调节因子,最后根据相似度阈值进行过滤。试验表明,其过滤效果较传统的过滤算法在语义理解上有较大提高。
     本文设计并实现了一个具有短文本语义过滤功能的代理服务器(SemanticFR)。该系统具有监控网络流量、网络层上包过滤、应用层上关键字过滤和语义过滤、基于URL、关键字的访问控制、网络访问内容重现等功能,系统运行稳定,达到了预期效果。
With the quick development of Internet, peoples depend on Internet for searching the information more and more.Because the most parts of information are deposited by the text way,peoples' demand the technology of the text information filtering is higher.Nevertheless, the traditional algorithms for text information filtering unable to recognize the semantic of text because they only implement the judgement on the level of structure matching and can not comprehend the context better,its filtering effect is difficult to meet the intellectual requirement.
     This paper mainly combines with the knowledge of Chinese informaiton processing,puts forward and carries out the short text semantic filtering algorithms.It includes the some key steps such as Chinese Word Segmentation,Word Mark,Sentence Expression Analysis,the semantic-based frame forming, calculating the similar degree of two semantic-based frameworks etc. Based on HHMM model for Chinese Word Segmentation and Word Mark and Word Sense Disambiguation which supports the PKU standard,973 standard and XML format output. By Sentence Expression Analysis to short text,according to the rule library of syntax and the information of sentence expression,the key word such as subject,predicate, object,area,time,space and so on can be distinguished from sentence, then the semantic-based frame can be filled; according to the long distance match function and the formula for calculating the similar degree of two semantic-based frameworks, the value, which can represent the similar degree of two semantic-based frameworks, can be calculated and decide to filter or not.
     The algorithms processes the exact Chinese Word Segmentation and Word Mark,and analyses the sentence expression which considers sufficiently such as the sentence ecdysis and so on special sentence ,then extracts the semantic frameworks.It changes the operation for comparing the similar degree of two semantic-based frameworks to mathematic calculation.It improves the formula of Similarity Calculating,increases the adjustive coefficient and filters according to the max key number of similar degree.The results of experimentations prove that the filtering effect is higher than traditional algorithms' on the level of semantic match.
     A Proxy Server with Semantic-based Content Filtering (SemanticFR) is implemented. SemanticFR has some functions such as monitoring network flow, packet filtering on the network layer, semantic-based filtering on the application layer, Content recurrence etc.
引文
[1]林鸿飞.中文文本过滤的逻辑模型[博士学位论文]。东北大学.2000
    [2]黄萱菁,夏迎炬,吴立德.基于向量空间模型的文本过滤系统.软件学报.2003.No.3:435-442
    [3]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,1998
    [4]白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息.1996(02)
    [5]洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法.计算机科学.2006.Vol.33.No.10:148-151
    [6]周强,俞士汶.一种切词和词性标注相融和的汉语语料库多级加工方法[J].第二届全国计算语言学联合学术会议.1993/06
    [7]刘群,李素健.基于《知网》的词汇语义相似度计算[J].第三届汉语词汇语义学研讨会(台北,2002)
    [8]周文刚,王景中.基于语义的信息过滤算法的设计和实现[J].周口师范学院学报.2006(3):58.59
    [9]董振东,董强.知网[CP/OL].http://www.keenage.com.
    [10]苗传江.基于HNC句类体系的句子语义研究[J].语言文字应用.2006.2:126-133
    [11]何静,刘海燕,张惠民.基于文本的内容过滤算法的比较.计算机工程,2002.28(11):9-10
    [12]姚天顺,朱靖波,张琍等.自然语言理解—一种让机器懂得人类语言的研究(第2版)[M].北京:清华大学出版社,2002/10.369-399
    [13]于海燕.基于倾向性文本过滤的IM监控系统的研究与实现:[硕士学位论文].西北大学.2007
    [14]张华平,刘群.中文自然语言处理开发平台[EB/OL].http://www.nlp.org.cn.2002.10
    [15]亓超.中文文本处理中句法分析方法的研究与实现[硕士学位论文].辽宁科技大学.2007
    [16]晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用.2004.16:36-39
    [17]张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报.2004.Vol.18.No.6:43-52
    [18]刘永丹,曾海泉,李荣陆等.基于语义分析的倾向性文本过滤[J].通信学报.25(7):83
    [19]谭思亮.监听与隐藏—网络侦听解密与数据保护技术[M].北京:人民邮电出版社.2002.118.135,356-402.
    [20]周文刚.基于语义的信息过滤算法及其应用[硕士学位论文].北京:北方工业大学.2006
    [21]丁展.Visual C++网络通信编程实用案例精选[M].北京:人民邮电出版社.2004:115-116
    [22]晋耀红,苗传江.一个基于语境框架的文本特征提取算法[J].计算机研究与发展.2004.04:582-586
    [23]黄曾阳.HNC概念符号体系[EB/OL].http://www.hncnlp.com.2007.04
    [24]张晓冬,张书杰.关于信息过滤模型的探讨[J].计算机工程与应用.2002.05:99-102.
    [25]晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:科学出版社,2006
    [26]汪国洋.基于内容过滤和重现的新型防火墙[硕士学位论文].北京:北方工业大学.2002
    [27]周文刚,王景中.基于语义的信息过滤算法的设计和实现[J].周口师范学院学报.2006(3):58-59
    [28]朱靖波,张钥杰,姚天顺.面向数据的句法分析技术[J].中文信息学报.1998.Vol.12.No.1:1-8
    [29]张钥杰,朱靖波,张跃,姚天顺.基于DOP的汉语句法分析技术[J].中文信息学报.1999.Vol.14.No.1:13-20
    [30]孙岩国。基于Internet的中文文本过滤系统的研究与实践[硕士学位论文]。兰州理工大学。2004
    [31]苏贵洋。基于内容的网络不良文本信息过滤若干关键技术研究[硕士学位论文].上海交通大学.2004
    [32]杨哓懿.基于内容分析的信息安全过滤技术研究[硕士学位论文].四川大学.2005
    [33]王绮.基于内容的短信息过滤系统研究[硕士学位论文].上海交通大学.2006
    [34]刘磊.基于文本过滤的校友信息搜索系统实现[硕士学位论文].上海交通大学.2006
    [35]王园.文本内容过滤的关键技术研究[硕士学位论文].东北师范大学.2006
    [36]王景中,徐小青.计算机通信信息安全技术[M].北京:清华大学出版社.2006
    [37]刘洋,林中.一种代理服务器的设计与实现方法[J].计算机工程与应用.2003(12):184
    [38]翟钰,武舒凡,胡建武。防火墙包过滤技术发展研究[J].计算机应用研究.2004(9):144-147
    [39]吴金龙.利用VC++编程实现防火墙数据包过滤[J].华侨大学学报(自然科学版).24(1):93-95.
    [40]计算所汉词语法分析系统ICTCLAS[EB/OL].http://sewm.pku.edu.cn/QA/reference/ICTCLAS/FreeICT LAS/
    [41]刘群,张华平等.基于层叠隐马模型的汉词语法分析[J].计算机研究与发展.2004(8),41(8):1421-1429
    [42]张华平.基于N-最短路径的中文词语粗分模型.中文信息学报.2002.5:1-7
    [43]梁南元.书面汉语的自动分词与一个自动分词系统CDWS[J].北京航空航天大学学报.1984(04)
    [44]刘七.基于Web文本内容的信息过滤系统的研究与设计[硕士学位论文].南京理工大学.2004
    [45]Stairmond,Mark A.A Computational Analysis of Lexical Cohesion with Applications in Information Retrieval[D].Ph D thesis-Center for Computational Linguistics,UMIS T,Manchester,1999
    [46]DOUGLAS W,OARD.A conceptual framework for text filtering[EB/OL].Technical Report CS-TR3643,http://www.clis.umd.edu/dlrg/filter/papers.ps,February 15,2003
    [47]CHO,KYU BONG.An efficient and reflective event filtering for context-awareness in ubiquitous computing[EB/OL].Lecture Notes in Computer Science,v 3992 LNCS-Ⅱ,Computational Science-ICCS 2006:6th International Conference,Proceedings,2006,p 587-594
    [48]Artale,A.Magnini,B.and Strapparava,C.Lexical discrimination with the Italian version of WordNet.Proceedings of ACL Workshop on Automatic Informantion Extraction and Building of Lexical Semantic Resources,1997
    [49]Schank,R.C.Conceptual Dependency:A Theory of Natural Language Understanding.Cognitive Psychology,1972,3:552-631
    [50]Laham D.Latent Semantic Analysis approaches to categorization.In:Proceedingof the Congnitive Science Society,1997

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700