基于改进朴素贝叶斯法的手机垃圾短信过滤算法研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Research on Optimized Naive Bayesian Algorithm in SMS Spam Filtering
  • 作者:田建学 ; 张珏
  • 英文作者:TIAN Jianxue;ZHANG Yu;School of Information Engineering,Yulin University;
  • 关键词:垃圾短信 ; 数据不均衡 ; 频繁项特征 ; 朴素贝叶斯
  • 英文关键词:spam message;;class imbalance problem;;frequent item;;Naive Bayes
  • 中文刊名:HNKX
  • 英文刊名:Henan Science
  • 机构:榆林学院信息工程学院;
  • 出版日期:2018-02-08 13:42
  • 出版单位:河南科学
  • 年:2018
  • 期:v.36;No.230
  • 基金:国家自然科学基金(61502219);; 陕西省教育科学规划课题(SGH16H234);; 榆林市科技局资助项目(NY13-15)
  • 语种:中文;
  • 页:HNKX201801004
  • 页数:5
  • CN:01
  • ISSN:41-1084/N
  • 分类号:23-27
摘要
在手机短信的使用中,垃圾短信的数量、特征及内容均在不断地变化.传统的基于固定模式的检测方法,比如:黑白名单和基于内容检测的方法都会出现因信息更新不及时而导致的性能降低的情况.因此提出一种基于改进的朴素贝叶斯的方法以提高垃圾短信分类的性能.首先利用频繁出现的单词创建数据特征,然后找出垃圾短信和非垃圾短信的差异特征词来构建分类关键词,最后应用改进的朴素贝叶斯算法进行分类.实验结果表明,新算法可以有效地提高分类精度.
        With the development of message service,the context and attribute are changing meanwhile. The traditional methods of dealing with spam messages which are based on fixed mode are black and white list and based on context,since the disadvantage is failed to update information timely. A improved Naive Bayes(NB)method has been proposed to improve the performance of classification. Firstly,frequent words are capitalized to create data attributes. Secondly,the classification key words are rebuilt by the difference words of spam and ham messages. Finally,a improved NB method is applied for classification. Experimental results prove that our method can improve the performance effectively.
引文
[1]甘金明,万励,吴洁明.基于分层协作的垃圾短信过滤模型[J].科技通报,2012,28(10):116-118.
    [2]袁闻,王晓晔,邓高登,等.基于贝叶斯分类器的中文垃圾短信辨识[J].科技资讯,2017,15(5):10-13.
    [3]李彬.垃圾短信过滤器的研究与实现[J].科技传播,2011(1):227-228.
    [4]吴宁宁,吴明光.垃圾短信实时监控过滤系统[J].科技通报,2009,25(3):328-331.
    [5]金展,范晶,陈峰,等.基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J].计算机应用,2008,28(3):714-718.
    [6]沈超,黄卫东.数据挖掘在垃圾短信过滤中的应用[J].电子科技大学学报,2009,38(S1):21-24.
    [7]张永军,刘金岭,于长辉.基于词贡献度的垃圾短信分类方法[J].山东大学学报(工学版),2012,42(5):87-90.
    [8]徐英慧,刘梅彦.基于内容的手机端垃圾短信过滤策略研究[J].北京信息科技大学学报(自然科学版),2013,28(1):51-55.
    [9]王文霞.基于贝叶斯文本分类算法的垃圾短信过滤系统[J].山西大同大学学报(自然科学版),2016,32(3):17-19,23
    [10]李润川,昝红英,申圣亚,等.基于多特征融合的垃圾短信识别[J].山东大学学报(理学版),2017,52(7):73-79.
    [11]何珑.基于随机森林的产品垃圾评论识别[J].中文信息学报,2015,29(3):150-154.
    [12]韩利强.垃圾短信与骚扰电话拦截技术[J].通讯世界,2017(1):66-67.
    [13]张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):1334-1337.
    [14]KIM S B,HAN K S,RIM H C.Some effective techniques for Naive Bayes text classification[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(11):1457-1466.
    [15]ZHANG W,GAO F.An improvement to Naive Bayes for text classification[J].Procedia Engineering,2011,15(1):2160-2164.
    [16]黄文良,张尼,董玉涛.基于移动终端位置和发送内容的垃圾短信监控方案[J].移动通信,2008,32(13):70-74.
    [17]钟延辉,傅彦,陈安龙,等.基于抽样的垃圾短信过滤方法[J].计算机应用研究,2009,26(3):139-141.
    [18]DELANY S J,BUCKLEY M,GREENE D.SMS spam filtering:methods and data[J].Expert Systems with Applications,2012,39(10):9899-9908.
    [19]DRUCKER H,WU D,VAPNIK V N.Support vector machines for spam categorization[J].IEEE Transactions on Neural Networks,1999,10(5):1048-1054.
    [20]RAKSE S K,SHUKLA S.Spam classification using new kernel function in support vector machine[J].International Journal on Computer Science and Engineering,2010,2(5):1819-1823.
    [21]ANDROUTSOPOULOS I,PALIOURAS G,KARKALETSIS V,et al.Learning to filter spam E-mail:a comparison of a Naive Bayesian and a Memory-based approach[J].Computer Science,2000,97(2):1-13.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700