基于因果岭回归的多数据源科研主题识别方法
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:The research topics identification with multiple data source based on causal regression
  • 作者:何增颖 ; 陈建锐 ; 钟足峰
  • 英文作者:HE Zeng-Ying;CHEN Jian-Rui;ZHONG Zu-Feng;Network and Information Technology Center,Lingnan Normal University;Business School,Lingnan Normal University;
  • 关键词:多数据源 ; 科研主题 ; 识别方法 ; 形态特征 ; 因果岭回归
  • 英文关键词:Multiple data source;;Research topics;;Identification method;;Morphological characteristics;;Causal regression
  • 中文刊名:SCDX
  • 英文刊名:Journal of Sichuan University(Natural Science Edition)
  • 机构:岭南师范学院网络与信息技术中心;岭南师范学院商学院;
  • 出版日期:2018-12-07 10:42
  • 出版单位:四川大学学报(自然科学版)
  • 年:2018
  • 期:v.55
  • 基金:广东省科技厅公益研究与能力建设专项资金项目(2015A020219013)
  • 语种:中文;
  • 页:SCDX201806012
  • 页数:7
  • CN:06
  • ISSN:51-1595/N
  • 分类号:78-84
摘要
为了有效解决多数据源科研主题的识别问题,基于因果岭回归建立了一种新的多数据源科研主题识别方法.该方法首先给出了多数据源科研主题识别关键参数(如主题词的引用权重、状态密度)的评价指标;同时根据科研主题形态特征建立了特征函数,并基于因果岭回归给出了具体识别方法;最后,通过仿真实验深入研究了影响该识别方法的关键因素.结果显示,与朴素贝叶斯、KNN算法和MGe-LDA算法相比较,该方法在价值引用量、引用权重和前沿主题相似度等方面具有较大优势.
        In order to effectively tackle the research topics identification with multiple data source,a new research topic identification method is presented based on causal regression.In this paper,the evaluation indicators are defined to identify the key parameters of research topics for multiple data source,such as the citation weight and status density of research topics,the feature function is established with morphological characteristics of research topics,and the research topics identification based on multiple data sources is modeled by causal regression.The experimental results show that the proposed method has great advantages in terms of value citation,citation weight and similarity with frontier topics,compared with Naive Bayes,KNN and Mge-LDA algorithm.
引文
[1]Tang H,Tan S,Cheng X.A survey on sentiment detection of reviews[J].Expert Syst Appl,2009,36:10760.
    [2]Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Inform Sciences,2014,266:90.
    [3]胡斐,罗立民,刘佳,等.基于时空兴趣点和主题模型的动作识别[J].东南大学学报:自然科学版,2011,41:962.
    [4]周亚东,刘晓明,杜有田,等.一种网络话题的内容焦点迁移识别方法[J].计算机学报,2015,38:261.
    [5]朱靖波,姚天顺.文本内容主题的识别方法[J].东北大学学报:自然科学版,2002,23:425.
    [6]石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报,2009,35:1586.
    [7]曾嘉,严建峰,龚声蓉.复杂文本网数据的主题建模进展[J].计算机学报,2012,35:2431.
    [8]黄发良,冯时,王大玲,等.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40:872.
    [9]Lu R,Xiang L,Liu M R,et al.Discovering news topics from microblogs based on hidden topics analysis and text clustering[J].PR&AI,2012,25:382.
    [10]张宪超,徐雯,高亮,等.一种结合文本和链接分析的局部Web社区识别技术[J].计算机研究与发展,2012,49:2352.
    [11]吕品,汪鑫,罗宜元,等.基于主题模型的(Aspect,Rating)摘要生成方法研究[J].电子学报,2016,44:3036.
    [12]刘玉文,吴宣够,郭强.网络热点新闻焦点识别与演化跟踪[J].小型微型计算机系统,2017,38:738.
    [13]邓赵红,张江滨,蒋亦樟,等.基于模糊子空间聚类的0阶岭回归TSK模糊系统[J].控制与决策,2016,31:882.
    [14]黄宴委.基于核岭回归的非线性内模控制[J].控制与决策,2009,24:1100.
    [15]李海林,郭崇慧.基于多维形态特征表示的时间序列相似性度量[J].系统工程理论与实践,2013,33:1024.
    [16]李海林,梁叶.基于数值符号和形态特征的时间序列相似性度量方法[J].控制与决策,2017,32:451.
    [17]赵超,唐亚勇.分位点门限自回归时间序列模型的贝叶斯方法[J].四川大学学报:自然科学版,2016,53:748.
    [18] Xing C,Wang Y,Liu J,et al.Hash tag-based subevent discovery using mutually generative LDA in Twitter[C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence.Phoenix,Arizona:AAAI Press,

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700