互联网中非法文本特征自适应提取仿真研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Research on Adaptive feature extraction Simulation of illegal text in Internet
  • 作者:杨肖楠 ; 花季伟
  • 英文作者:YANG Xiao-nan;HUA Ji-wei;College Of Computer and Information Engineering, Tianjin Normal University;
  • 关键词:互联网 ; 非法文本特征 ; 自适应提取 ; 支持向量
  • 英文关键词:Internet;;Illegal text feature;;Adaptive extraction;;Support vector
  • 中文刊名:JSJZ
  • 英文刊名:Computer Simulation
  • 机构:天津师范大学计算机与信息工程学院;
  • 出版日期:2019-05-16 13:25
  • 出版单位:计算机仿真
  • 年:2019
  • 期:v.36
  • 语种:中文;
  • 页:JSJZ201906090
  • 页数:4
  • CN:06
  • ISSN:11-3724/TP
  • 分类号:440-443
摘要
针对传统非法文本特征自适应提取中,普遍存在着提取查全率较低、完成时间较长、成本消耗较大等问题。对此问题,提出一种基于支持向量机回归的非法文本特征自适应提取方法。对互联网文本特征信息进行分析,通过灰度局部的显著非法文本特征变化和显著非法文本特征多方向边缘强度,定位出显著非法文本特征区域,引入支持向量回归模型对非法文本特征区域和合法文本特征区域进行精确分离,消除合法文本边界,提取出互联网中非法文本特征。实验结果表明,所提出方法提取查全率较高、完成时间较短、成本消耗较低。
        In the traditional adaptive extraction of illegal text feature, the extraction recall rate is low, the completion time is long and the cost is high. Therefore, a method for adaptively extracting illegal text features based on support vector machine regression was proposed. At first, the Internet text feature information was analyzed. Then, the significant illegal text feature region was located through the grayscale local significant change of illegal text feature and the multi-direction edge intensity of significant illegal text feature. In addition, the support vector regression model was introduced to precisely separate the region with illegal text feature from the region with legal text feature, so as to eliminate the legal text boundary. Finally, the illegal text feature was extracted from the Internet. Simulation results show that the proposed method has higher recall ratio, shorter completion time and lower cost.
引文
[1] 郑诚,吴文岫,代宁.融合BTM主题特征的短文本分类方法[J].计算机工程与应用,2016,52(13):95-100.
    [2] 王万良,潘蒙.基于多特征的视频关联文本关键词提取方法[J].浙江工业大学学报,2017,45(1):14-18.
    [3] 王民,孙向南,刘利,等.以笔画为研究对象的笔迹伪动态特征提取方法[J].计算机工程与应用,2016,52(18):179-182.
    [4] 李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,54(12):141-146.
    [5] 孙晶涛,张秋余.不均衡大数据集下的文本特征基因提取方法[J].电子科技大学学报,2018,47(1):125-131.
    [6] 谭杰,张富春,张水利.基于互联网技术的大棚智能农业监测控制系统研究[J].电子设计工程,2018,26(4):38-42.
    [7] 党红恩.藏文字形轮廓特征优化识别提取仿真研究[J].计算机仿真,2016,33(11):341-344.
    [8] 陈功,黄瑞章,钟文良.基于社交特征的多维度文本表示方法[J].计算机工程与科学,2016,38(11):2348-2355.
    [9] 张国和,黄凯,张斌,等.最大稳定极值区域与笔画宽度变换的自然场景文本提取方法[J].西安交通大学学报,2017,51(1):135-140.
    [10] 张婷婷,王伟军,黄英辉,等.基于屏幕视觉热区的中文短文本关键词实时提取方法[J].情报学报,2016,35(12):1313-1322.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700