基于AC自动机和贝叶斯方法的垃圾内容识别
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Recognition of Garbage Content Based on the AC Automata and Bayesian Methods
  • 作者:丁川芸 ; 兰全祥
  • 英文作者:Ding Chuanyun;Lan Quanxiang;Panzhihua University;
  • 关键词:垃圾内容识别 ; AC自动机 ; 贝叶斯方法
  • 英文关键词:garbage content identification;;AC automata;;Bayesian method
  • 中文刊名:XBJX
  • 英文刊名:Journal of Heilongjiang University of Technology(Comprehensive Edition)
  • 机构:攀枝花学院;
  • 出版日期:2019-02-20
  • 出版单位:黑龙江工业学院学报(综合版)
  • 年:2019
  • 期:v.19
  • 基金:教育部高等教育司第一批产学合作协同育人项目(编号:201701048010);; 攀枝花学院大学生创新创业项目(编号:2018cxcy104)
  • 语种:中文;
  • 页:XBJX201902008
  • 页数:4
  • CN:02
  • ISSN:23-1599/Z
  • 分类号:42-45
摘要
针对目前垃圾内容识别算法存在的问题,研究一种垃圾内容识别率高、准确率高的识别方法。对常用识别方法 AC自动机和贝叶斯方法进行分析,指出这些方法存在的问题,提出一种基于AC自动机和贝叶斯方法的垃圾内容识别方法。首先,利用AC自动机按照设定的类别关键词库圈定关键词,然后利用贝叶斯方法训练所得的策略对关键词进行二次筛查,进而判断是否为垃圾内容。AC自动机与贝叶斯方法的结合能够在保证高效识别关键词的情况下尽可能地减少误伤,提高用户体验感。
        In view of the existing problems of garbage content recognition algorithm,a garbage content recognition method with high recognition rate and high accuracy is proposed. By analyzing the common recognition method of the AC automaton and the Bayesian method,the identification of garbage content based on the AC automaton and the Bayesian method is proposed. First,we should find out the key words based on the specified category keyword database through the AC automata method. Then the keywords are identified twice using the strategy of Bayesian training to determine whether the content is garbage. The combination of AC automata and Bayesian method can reduce the misrecognition as much as possible and improve the user experience while ensuring the efficient recognition of keywords.
引文
[1]韩云凤.基于Lucene的期刊论文库的检索技术研究[D].北方工业大学,2018.
    [2]张俊兰,张波.基于数据库的字符串检索[J].电脑学习,2005(01):62-63.
    [3]刘丽霞,张志强.基于Trie树的相似字符串查找算法[J].计算机应用,2013,33(08):2375-2378.
    [4]徐懿彬.基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法[J].电子科技大学学报,2017,46(02):426-433.
    [5]郭淑敏,朱蓉,王晶晶,胡胜,陈佳辉.基于贝叶斯算法的垃圾邮件过滤的方法研究[J].电脑知识与技术,2017,13(13):171-173.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700