用户名: 密码: 验证码:
LDA特征扩展的多类SVM短文本分类方法研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Research on the Classification Methods of Multiple SVM Short Texts based on LDA Feature Extension
  • 作者:郑腾 ; 吴雨川
  • 英文作者:ZHENG Teng;WU Yu-chuan;School of Mechanical Engineering and Automation, Wuhan Textile University;
  • 关键词:短文本分类 ; 特征扩展 ; SVM ; LDA
  • 英文关键词:short text classification;;feature expansion;;Laten Dirichlet Allocation(LDA);;SVM
  • 中文刊名:WFGB
  • 英文刊名:Journal of Wuhan Textile University
  • 机构:武汉纺织大学机械工程与自动化学院;
  • 出版日期:2019-04-15
  • 出版单位:武汉纺织大学学报
  • 年:2019
  • 期:v.32;No.171
  • 基金:国家自然科学基金面上项目(61271008)
  • 语种:中文;
  • 页:WFGB201902015
  • 页数:5
  • CN:02
  • ISSN:42-1818/Z
  • 分类号:74-78
摘要
针对短文本信息量少、特征稀疏的特点,提出一种基于LDA主题扩展的多类SVM短文本分类方法。在短文本基础上,利用LDA主题模得到文档的主题分布,将主题中的词扩充到原短文本的特征中,在特征空间上使用基于经典权重计算方法的多类SVM分类器进行分类。实验结果表明,在各个类别上的查准率、查全率和F1值都有所提高,验证了该方法的可行性。
        Based on the short text and characteristics of sparse, this paper puts forward a short text classify method based on characteristics extend of LDA. This method used the LDA model to obtain the subject distribution of document, extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. A multi-class SVM classifier based on classical weight calculation was used. Experimental results show that the precision, recall and F1 values are improved in all categories. It verifies this model has some superiority in text categorization.
引文
[1]张虹.短文本分类技术研究[D].大连:辽宁师范大学,2015.2-3.
    [2]朱征宇,孙俊华.改进的基于知网的词汇语义相似度计算[J].计算机应用,2013,33(8):2276-2279+2288.
    [3]王荣波,谌志群,周建政,等.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85+92.
    [4]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
    [5]刘秀松.带有云化核函数的SVM文本分类方法[J].科技情报开发与经济,2007,17(30):13-15.
    [6]Ulrich Krebel.Pairwise classification and support vector machines[M].In B.Schuolkopf,Burges C J C,Smola A J,editors,Advances in Kernal Methods:Support Vector Learning,Pages,MITPress,Cambrige,MA,1999.255-268.
    [7]HSU C W,LIN C J.A comparison of methods for multiclass support vector machines[J].IEEE Trans on Neural Networks,2002,13(2):415-425.
    [8]闫健卓.基于X2统计的改进文本特征选择方法[J].计算机应用研究,2012,29(7):2454-2456.
    [9]刘海峰,姚泽清,苏展.基于词频的优化互信息文本特征选择方法[j].计算机工程,2014,40(7):179-182.
    [10]刘庆河,梁正友.一种基于信息增益的特征优化选择方法[J].计算机工程与应用,2011,47(12):130-134.
    [11]裴英博,刘晓霞.文本分类中改进CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130.
    [12]霍颖瑜,王晓峰.一种新的SVM多类分类算法[J].佳木斯大学学报(自然科学版),2006,24(4):476-478.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700