一种基于数据挖掘技术的垃圾短信用户预识别方法
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
近年来随着移动通信业务的飞速发展,手机短信越来越成为人们通信交流的主要方式。但是在短信业务发展的同时大量的垃圾短信也随之涌现,对手机用户造成了日常生活的干扰。
     垃圾短信由于其隐藏性较强,发送的内容、文字形式、发送的频率多变,使得对其进行识别比较困难,单纯的依靠关键字或流量监控已经不能满足运营商对垃圾短信过滤的要求。目前主流的垃圾短信过滤主要是通过文本分析,使用黑白名单或基于机器学习的方法过滤,这些方法都是针对垃圾短信本身进行分析。无论是根据用户反馈还是主动拦截,均属于事中拦截或事后限制。当运营商采取措施时,已经有大量的垃圾短信流向用户,如果能对发送垃圾短信行为进行预测,将垃圾短信发送扼杀在初期,则能大幅降低垃圾短信发送量。
     本文选择了一种基于决策树分割的训练模型,通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别,形成垃圾短信号码高风险名单。相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。
     本文的第一章对研究背景以及目前主流的垃圾短信过滤方法进行了概述,阐明研究的意义;第二、三章主要介绍算法所需数据集的准备及处理过程;第四章主要介绍了模型的原理及建立过程;第五章对实验结果进行分析,评价该算法的准确度及效率;最后一章进行了总结,指出算法的不足以及对未来进行展望。
With the rapid development of wireless communications services, SMS service become more and more important in everyday life.Meanwhile, large junk message emerge with the short message service development, it disturb the daily life of mobilephone users.
     Junk message has strong gender of concealment, it's content,written form and the frequency of message sending kept changing, so it is very difficult to find out. Depends on tranditional method of monitoring key words and traffic could not meet the operator's requirments.Nowadays the text analysis,black or white list filtering and machine learning are mainstream methods of junk message filtering, compare with these methods of analysing the message content, this paper select a new way which based on decision tree, through customer attribute, customer behavior and other dimension to construct the model, then find out the telephone number which send the junk message, formed a high risk telephone number list. The result show that the method can effectively identify the telephone number which send out the junk messages, this model will be beneficial to supporting the monitoring system.This article the first chapter introduce the background of junk message filtering and the main methord to filter the junk message; The second and third chapter introduce the algorithm and the process of prepare data; The fourth chapter introduce the principle of module and how to construct it;The fifth chapter is mainly analysing the result, estimate the efficiency and veracity; The last chapter make a summary,point out the fault of algorithm and prospect for the future.
引文
1中国移动,中国移动垃圾短信治理通报,2011年2月
    [1]运行监测协调局.2012.2012年全国电信业统计公报[EB/OL].北京.中华人民共和国工业和信息化产业部..2012.01.http://www.miit.gov.cn/n11293472/n11293832/n11294132/nl2 858387/15132905.htm1.2013.01.24
    [2]运行监测协调局.2007.关于依法打击网络淫秽色情专项行动工作方案的通知[S].北京.中华人民共和国信息产业部.信部电[2007]231号
    [3]韩庆峰,陈根张.从垃圾短信看我国信息内容服务市场的规范[J].科技情报开发与经济2006年13期.2-3
    [4]张云.浅析短信业务遇到的挑战[J].电子商务.2011年10期.27
    [5]欧阳昊一.基于层次特征和统计特征的短文本过滤系统研究[硕士学位论文].北京.北京邮电大学.2011.2
    [6]钟延年.基于文本挖掘的垃圾短信过滤方法[硕士学位论文].成都.电子科技大学.2009.3-4
    [7]苟亿强.浅谈垃圾短信侵权问题[J].国联民商法网刊.2008年第2期.23
    [8]杨场.论垃圾短信侵权问题[J].企业导报.2010年10期.18
    [9]梁作君.短信的防范与治理[J].通讯管理与技术200年3期.9
    [10]何培舟,温向瞬,郑伟.垃圾短信的防治方法研究[J].通信技术.2008.12.33-34
    [11]唐晓峰.对垃圾短信民事法律的反思[硕士论文].兰州.兰州大学.2007.5.19-20
    [12]龚国伟.论垃圾广告短信的危害与治理对策[J].图书馆.2008第3期.42-43
    [13]张淑亚,周书霞.垃圾短信综合治理的困境与抉择[J].经济研究导刊.2008第17期.14
    [14]张燕,傅建明.垃圾短信的识别与追踪研究[J].计算机应用研究.2006年第3期.25-27
    [15]刘金岭.基于查询词扩展的中文垃圾短信检索[J].计算机工程.2011年第8期.17-18
    [16]黄文良.基于复杂网络的垃圾短信过滤算法[J].自动化学报.2009年第7期.45-47
    [17]范晶.基于Hash函数和贝叶斯方法的垃圾短信在线过滤系统[J].计算机应用.2008年第4期.31-32
    [18]袁瑞芬.手机垃圾短信过滤系统的设计和实现[J].现代计算机(专业版).2011年第3期.47-49
    [19]龚之闻.不基于短信内容的垃圾短信识别模型[J].科技信息.2011年07期.51-53
    [20]Jiawei Han,Micheline.Kamber and Jian Pei.Data Mining:Concepts and Techniques.Third Edition[M].Sigapore.Elsevier Pte Ltd..2012.226-227
    [21]李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程.2008年12期.154-156
    [22]陈世福,陈兆乾.人工智能与知识工程[M].南京.南京大学出版社.1997.391
    [23]郭昭辉,刘绍翰,武港山.基于神经网络的中文文本分类中的特征选择技术[J].计算机应用研究.2006年第7期.161-164
    [24]陈志泊.数据仓库与数据挖掘[M].清华大学出版社.2009.05.113-117
    [25]张琳,陈燕,李桃迎,牟向伟.决策树分类算法研究[J].计算机工程.2011年13期.66-69
    [26]李强.创建决策树算法的比较研究——ID3.C4.5.C5.0算法的比较[J].甘肃科学学报2006年4期.15-17
    [27]陆安生,陈永强,屠浩文.决策树C5算法的分析与应用[J].2005年09期.17-20
    [28]沈超,黄卫东.数据挖掘在垃圾短信过滤中的应用[J].电子科技大学学报.2009年38卷.21-25
    [29]Jian Zhang. Yiming Yang.Bryan Kisiel. A scalahility analysis of classifiers in text categorization[C].Proceedings of the 26th ACM International Conference on Research and Development in Information Retrieval (SIGIR'O3).2003:96-103.
    [30]陈治平.基于自学习K近邻的垃圾邮件过滤算法[J]计算机应用.2005.(25):1.8.
    [31]卢增祥,李衍达.交互支持向量机学习算法及其应用[J]清华大学学报(自然科学版).1999.V61.39.N07:93-97
    [32]黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国.2009年26期.31-33

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700