摘要
机械制造领域存在大量的领域知识,这些领域知识将特征项与文本类别关联起来,有助于区分文本的类别。基于此,本文提出一种融合领域知识的多标签分类方法旨在提高机械制造领域文本的分类性能,该方法首先采用融合领域知识的x2统计特征选择方法得到文本表示特征项集合和对应的相关度矩阵R,R反映了各特征项与类别的相关度;然后将文本是否包含某类别标签这一事件和文本与该类别的相关度关联起来,文本与该类别相关度视作特征项与该类别相关度的集聚,其相关度越大,文本包含该类别标签的概率也越大,统计文本各类别相关度的贡献率,根据最大后验概率准则推理文本类别标签集合。在3个多标签分类常用评测指标下的实验结果表明:与MLKNN方法进行对比,对于机械制造领域文本,融合领域知识的多标签分类方法具有更好的分类性能。
引文
[1]周浩.中文多标签文本分类算法研究[D].上海交通大学,2014.
[2]Tsoumakas G,Katakis I,Vlahavas I.Mining Multi-label Data.Data Mining and Knowledge Discovery Handbook[M].Maimon O,Rokach L.2nd ed.Springer,2010:667-685.
[3]Zhang Minling,Zhou Zhihua.ML-k NN:A lazy learning approach to multi-label learning[J].Pattern Recognition,2007(7):2038-2048.
[4]张敏灵.一种新型多标记懒惰学习算法[J].计算机研究与发展,2012,11:2271-2282.
[5]Ruben Nicolas,Andreu Sancho-Asensio,Elisabet Golobardes,Albert Fornells,Albert Orriols-Puig,Multi-label classification based on analog reasoning[J].Expert Systems with Applications,2013(40):5924-5931.
[6]Everton Alvares Cherman.Lazy Multi-label Learning Algorithms Based on Mutuality Strategies[J].Intell Robot Syst,2014(10):1007-1022.
[7]朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报,2005,08:733-735.
[8]庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,02:123-128.
[9]Tsoumakas G.Multi-label classification[J].International Journal of Data Warehousing&Mining,2007(3):1-13.