基于LDA的多源文献主题及其差异研究——以“机器学习”为例
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Multi-source Literature Topics Based on LDA and Their Differences——Taking "Machine Learning" as an Example
  • 作者:张子振 ; 储煜桂 ; 吴小兰
  • 英文作者:ZHANG Zi-zhen;CHU Yu-gui;WU Xiao-lan;School of Management Science and Engineering, Anhui University of Finance and Economics;
  • 关键词:机器学习 ; 多源文献 ; LDA模型 ; KL距离
  • 英文关键词:machine learning;;multi-source literature;;LDA model;;KL distance
  • 中文刊名:QBKX
  • 英文刊名:Information Science
  • 机构:安徽财经大学管理科学与工程学院;
  • 出版日期:2019-05-30
  • 出版单位:情报科学
  • 年:2019
  • 期:v.37;No.334
  • 基金:2018年国家社科青年基金项目“社交媒体视域下的跨学科用户发现及其推荐研究”(17CTQ047)
  • 语种:中文;
  • 页:QBKX201906017
  • 页数:6
  • CN:06
  • ISSN:22-1264/G2
  • 分类号:109-113+151
摘要
【目的/意义】期刊论文、学位论文、专利文献是众多学者的重要研究成果,同时也为后来的学者提供了有力的参考价值。本文以"机器学习"领域为例,分别从期刊论文、硕士学位论文、博士学位论文、专利文献角度进行了主题及主题差异性分析。【方法/过程】首先从中国知网(CNKI)获取数据。然后,借用LDA分析主题。第三,运用KL距离分析期刊论文、硕士学位论文、博士学位论文、专利文献的相似度差异。【结论】通过本文研究我们发现,期刊论文涉及的研究领域广泛,学位论文关注社会实践意义,专利论文则为学科发展提供支撑。此外,期刊论文与专利论文最为相似,期刊论文与学位论文的差异最大,这为全面了解领域文献提供了一个很好的借鉴。
        【Purpose/significance】Journal papers, dissertations, and patent documents are important research results of many scholars, and also provide a powerful reference value for later scholars. Taking "machine learning" as an example,this paper analyzes the differences between topics from the perspectives of journal papers, master's thesis, doctoral thesis and patent literature.【Method/Process】First, obtain data from China Knowledge Network(CNKI). Then, borrow LDA to analyze the topic. Third, the KL distance analysis is used to analyze the similarity difference between journal articles, master's thesis, doctoral thesis and patent documents.【Result/conclusion】Through the research of this paper, we find that the journal papers cover a wide range of research fields, the dissertation focuses on social practice, and the patent papers provide support for the development of disciplines. In addition, journal articles are most similar to patent papers, and journal papers and dissertations have the greatest differences, which provides a good reference for a comprehensive understanding of domain literature.
引文
1 魏瑞斌.国内战略性新兴产业博硕士论文计量分析[J].图书与情报,2017,(1):68-73.
    2 侯婷,吕学强,李卓,等.面向专利技术主题分析的技术主题获取[J].情报理论与实践, 2015,38(5):125-129,140.
    3 田鹏,王伟军,甘春梅.国内外Web2.0环境下知识共享研究主题分析―基于共词分析法的研究[J].情报科学,2012,30(1):125-131.
    4 王方平.近几年图书情报领域新技术应用研究的主题分析[J].情报杂志,2011,30(S2):78-80.
    5 温志强,滑冬玲,郝雅立.基于计量学共词视角的突发事件应对研究知识图谱与热点主题分析[J].数学的实践与认识,2017,47(17):90-102.
    7 黄艳.国内情报学博硕士学位论文研究主题分析[J].情报探索,2016,(8):27-31.
    7 马云彤.我国出版专题博士学位论文学科专业与研究主题分析[J].唐都学刊,2013,29(2):82-84.
    8 李建铁.2000-2009高等教育学硕士学位论文主题分析[D].长沙:中南大学,2011.
    9 沈君,王续琨,陈悦,等.战略坐标视角下的专利技术主题分析——以第三代移动通信技术为例[J].情报杂志,2012,31(11):88-94.
    10 Lee W S,Han E J, Sohn S Y. Predicting the Pattern of Technology Convergence Using Big-Data Technology on Large-Scale Triadic Patents[J]. Technological Forecasting&Social Change,2015,100:317-329.
    11 王博,刘盛博,丁堃,等.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(3):111-117.
    12 任智军,乔晓东,张江涛.新兴技术发现模型研究[J].现代图书情报技术,2016(8):60-69.
    13 Suominen A, Toivanen H, Sepp?nen M. Firms’Knowledge Profiles:Mapping Patent Data with Unsupervised Learning[J].Technological Forecasting&Social Change,2017,115:131-142.
    14 Salton G,Yu C T.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proceedings of the 1973 Meeting on Programming Languages and Information Retrieval. New York:ACM,1973:48-60.
    15 姚清耘.基于向量空间模型的中文文本聚类方法的研究[D].上海:上海交通大学,2008.
    16 Blei D,Ng A,Jordan M. Latent Dirichlet allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.
    17 Heinrich G. Parameter estimation for text analysis[R].Techni-cal Report, 2008.
    18 盖森,刘建忠,熊伟,等.一种结合LDA主题分析的地理信息检索方法[J].测绘科学技术学报,2015,32(3):315-320.
    19 Kullback S, Leibler R A. On Information and Sufficiency[J]. Annals of Mathematical Statistics,1951,22(1):79-86.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700