反垃圾邮件中贝叶斯方法的应用研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
本论文依托于国家高技术研究发展计划863项目重大专项课题“‘缩小数字鸿沟——西部行动’第一批课题(课题编号:2003AA1Z2530)——基于国产Linux的公共信息平台关键技术与应用研究”的研究内容。
     近年来,我国的因特网应用进入大发展阶段,电子邮件给用户带来很大方便的同时,也产生了一个新的问题,即大量的垃圾邮件的出现。如何将电子邮件中属于“垃圾”类别的邮件过滤掉,已成为电子邮件用户关心的一大问题。这就是所谓的“反垃圾邮件(Anti-Spam)”问题。这也是基于国产NC和国产Linux公共信息平台要解决的一个问题。
     要治理垃圾邮件,必须立法、组织、技术三管齐下。就技术而言,我们要清醒地认识到制造、传播垃圾邮件技术和反垃圾邮件技术的斗争如同人类和计算机病毒斗争一样,都是一个此消彼长、长期不断的过程。为此,本文就反垃圾邮件技术、文本自动分类系统、贝叶斯分类模型、多分类器组合等相关理论、知识进行了研究。
     贝叶斯(Bayes)分类算法是基于概率统计原理的一种分类方法,它具有理论清楚、运算速度快、分类精度高等优点,因而被广泛地应用在各个领域的文本分类并取得较好的效果。本文对朴素贝叶斯分类模型(NBC)、朴素贝叶斯分类模型的提升(Boosted NBC)、半朴素贝叶斯分类模型(SNBC)、树扩展的朴素贝叶斯网络分类模型(TAN)、增量贝叶斯分类模型、贝叶斯网络(BN)等贝叶斯变形算法进行了深入地研究。
     在此基础上,本论文提出基于贝叶斯技术的反垃圾邮件多分类器组合模型,并对模型的阈值优化设置提出了改进方法。实验结果表明,该算法模型可以获得较高的查准率和查全率,可以为设计出更好的反垃圾邮件方案提供理论的支持。
This dissertation is based on the "Narrowing the Digit-divide—West Program—Key Technique and Applied Research of the Public Information Platform based on the Domestic Linux " as the first batch of national 863 important special project (serial number: 2003AA1Z2530).With the rapid development of the Internet, Electronic mail brings both convenience and trouble to users, especially the later, for so much junk mail frequently appear in users' mailbox. How to filter these junk mails and retain useful e-mail is a big problem not only to the e-mail users but to the public information platform based on the domestic Linux and NC. This is the so-called "Anti-spam".In order to deal with the junk mail, we must adopt ways and methods from three aspects: lawmaking, organization and technology. In brief, it is a long hard fight between us and junk mail makers, just as the fighter of that of viruses, In this regard, the author has done some research of the theories and techniques of anti-spam, text filtering, Bayesian classifier model and the combination of multiple classifiers.Beyesian classifier algorithm is a filtering method based on the theory of statistical probability. It shows fairly satisfactory performance on the areas of text classification. Accordingly, the author proceeds a further research on Naive Beyesian classifier(NBC),Boosted NBC, Semi-NBC(SNBC),Tree-Augmented Naive Bayesian Classifier (TAN),Increased NBC and Bayesian Netwok(BN).Based on these researches, the author focuses on establishing the Bayesian multiple classifiers optimization algorithm on anti-spam. He also explore the improved threshold method in the anti-spam model based on Bayesian Classifier.Experimental results show that this new algorithm can achieve fairly satisfactory performance in the mail filtering applications and may provide solid theoretical support for designing the anti-spam software.
引文
[1] 国家信息安全工程技术研究中心,国家信息安全基础设施研究中心.电子政务总体设计与技术实现[M].北京:电子工业出版社,2003
    [2] 苗放等.国家863项目申请—低成本电子政务平台建设和应用示范[R].成都:成都市软件产业发展中心,2003
    [3] 苗放等.缩小数字鸿沟—西部行动成都市示范试点工程[R].成都:成都市软件产业发展中心,2003
    [4] 卢强,周舟等.低成本电子政务公共信息平台测试报告[R].成都:成都市软件产业发展中心,2003
    [5] [美]道格拉斯·霍姆斯著.詹俊峰,李怀璋等译.电子政务[M].北京:机械工业出版社,2003
    [6] 孙正兴,戚鲁.电子政务原理与技术[M].北京:人民邮电出版社,2003
    [7] 徐晓林,杨兰蓉.电子政务导论[M].武汉:武汉人民出版社,2002
    [8] 中软网络技术股份有限公司.中软Linux3.1通用服务器用户手册[M].北京中软电子出版社,2004
    [9] 信息产业部计算机培训中心.电子政务基础知识读本[M].北京:电子工业出版社,2003
    [10] 高怡新等.公务员信息技术与电子政务培训教材[M].北京:科学出版社,2002
    [11] 汪玉凯,赵国俊等.电子政务基础[M].北京:北京中软电子出版社,2002
    [12] 伽玛等著,李英军等译.设计模式:可复用面向对象软件的基础[M].北京:机械工业出版社,2000工业出版社,2002
    [13] 林士敏,田凤占,陆玉昌.贝叶斯网络的建造及其在数据挖掘中的应用.清华大学学报(自然科学版)2001,41(1):49-52
    [14] 林士敏,田凤占,陆玉昌.用于数据挖掘的贝叶斯分类器研究[J].计算机科学200027(10)73-76
    [15] 林士敏,王双成,陆玉昌.Bayesian方法的计算学习机制和问题求解[J].清华大学学报自然科学版.2000.40(9):61—64
    [16] 田凤占,张宏伟,陆玉昌,石纯一.多模块贝叶斯网络中推理的简化[J].计算机研究与发展.2003.40(8):1230—1237
    [17] 王双成,林士敏,陆玉吕.用Bayesian网络处理具有不完整数据的问题分析[J].清华大学学报自然科学版.2000.40(9):65—65
    [18] 曾勇,唐小我,郑维敏.组合预测贝叶斯模型研究[J].管理科学学报.1999.2(3):14—21
    [19] 詹原瑞,谢秋平,李雪.贝叶斯网络在因果图中的应用[J].管理工程学报.2003.17(2)
    [20] 宫秀军,刘少辉,史忠植.一种增量贝叶斯分类模型[J].计算机学报2002,25(6):645—50
    [21] 宫秀军,孙建平,史忠植.主动贝叶斯网络分类器[J].计算机研究与发展2002,39(5):574—579
    [22] M.Sahami, S. Dumais, A Bayesian Approach to Filtering Junk E_mail, InLearning for Text Categorization: Papers from the 1998 workshop[R]. AAAI TechnicalRePort, WS—98—05, PP. 55—62, 1998
    [23] 陈华辉,薛春阳.一种基于贝叶斯网的“垃圾”邮件过滤器[J].微机发展,2000年第四期:53—55
    [24] D. Heckerman. A Bayesian Approach to Causal Discovery[J]. Technical Report MSR—TR—97—05, Microsoft Research. 1997.
    [25] D. Geiger, T. Verma, J. Pearl. Identifying Independence in Bayesian Networks[J]. Networks 1990, 20: 507—534.
    [26] J. Cheng, R. Greiner, J. Kelly, D. A. Bell, W. Liu. Learning Bayesian Networks from Data: An Information—Theory Based Approach[J]. The Artificial Intelligence Journal. 2002. 137: 43—90.
    [27] 胡玉胜,涂序彦,崔晓瑜,程乾生.基于贝叶斯网络的不确定性知识的推理方法[J].计算机集成制造系统.2001.7(12):65—68
    [28] J. Pearl. Probabilistic Reasoning in Intelligent Systems[M]. Morgan Kaufmann Publishers. 1988.
    [29] W. Lam. Alberto Maria Segre: A Distributed Learning Algorithm for Bayesian Inference Networks[J]. TKDE. 2002. 14(1): 93—105
    [30] David D. Lewis, native(Bayes)at Forty: The Independence Assumption in Information retrieval, In: Pro of the 10th EuroPean Conf on Machinelearning, 1998
    [31] 王飞,刘大有,卢奕男,薛万欣.Bayesian网中的独立关系[J].计算机科学2001.28(12):33—36.
    [32] 郑忠国,孙丽丽.带有反馈的因果模型中的独立性识别[J].应用数学学报.2000.23(2):299—310.
    [33] 周颜军,王双成,王辉.基于贝叶斯网络的分类器研究[J].东北师大学报自然科学版.2003.35(2):21—27
    [34] 王玮,陈恩红,王煦法.基于贝叶斯方法的知识发现[J].小型微型计算机系统.2000.21(7):703—705
    [35] 刘洁,陈小平,蔡庆生,范众.不确定信息的认知结构表示推理和学[J].软件学报.2002.13(4):649—651
    [36] 汪荣贵,张佑生,彭青松.分组样本下Bayes网络条件概率的学习算法[J].小型微型计算机系统.2002.23(6):657—690
    [37] 杨欣斌,孙京浩,黄道.基于Bayesian网络的缺损数据处理方法[J].华东理工大学学报.2002.28:41—45
    [38] Paul Graham, Better Bayesian Filtering, In: Proceedings of Spam Conference, 2003, 1
    [39] Gray Robinson, A Statistical Approach to the Spam Problem[J]. Linux Journal, March 2003
    [40] 刘玉亭.客户端反垃圾邮件解决方案.2004中国反垃圾邮件技术研讨会(Conference on China Anti-Spare technology,缩写为CCAS)
    [41] 陈章.积极行动综合治理垃圾邮件.2004中国反垃圾邮件技术研讨会(Conference on China Anti-Spare technology,缩写为CCAS)
    [42] 汪翔.国际反垃圾邮件技术概览.2004中国反垃圾邮件技术研讨会(Conference on China Anti-Spare technology,缩写为CCAS)
    [43] 王兴宇.知识系统在反垃圾技术中的应用.2004中国反垃圾邮件技术研讨会 (Conference on China Anti-Spam technology,缩写为CCAS)
    [44] 叶豪.反垃圾邮件技术概述.2004中国反垃圾邮件技术研讨会(Conference on China

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700