用户名: 密码: 验证码:
基于集成学习的自动标引方法研究
详细信息   全文下载|推荐本文 |
  • 出版年:2010
  • 作者:章成志
  • 单位1:南京理工大学经济管理学院信息管理系
  • 单位2:中国科学技术信息研究所
  • 出生年:1977
  • 学历:博士
  • 职称:讲师
  • 语种:中文
  • 作者关键词:自动标引;关键词提取;集成学习
  • 起始页:3
  • 总页数:6
  • 经费资助:本研究受中国博士后科学基金资助项目(20080430463)、教育部人文社会科学研究一般项目(08JC870007)、南京理工大学科研启动基金项目(AB41123)资助。
  • 刊名:情报学报
  • 是否内版:否
  • 刊频:双月刊
  • 创刊时间:1982
  • 主管单位:中国科学技术协会
  • 主办单位:中国科学技术情报学会;中国科学技术信息研究所
  • 主编:武夷山
  • 地址:北京市复兴路15号
  • 邮编:100038
  • 电子信箱:qbxb@istic.ac.cn
  • 网址:http://www.cssti.org.cn
  • 卷:29
  • 期:1
  • 期刊索取号:P965.5066 547
  • 数据库收录:INSPEC(科学文摘);LISA(图书馆和信息科学文摘);РЖ(俄罗斯文摘杂志);中国科技论文与引文数据库(中国科学技术信息研究所);中文社会科学引文索引(南京大学);中国学术期刊文摘(中国科协);中国期刊全文数据库(同方);数字化期刊全文数据库(万方)
摘要
目前大多数自动标引方法不能有效利用文本中包含的多个特征。而支持向量机、条件随机场模型等统计机器学习模型能够有效利用文本包含的多种特征进行关键词提取。同时,由于各种自动标引模型性能各异,综合利用各种模型进行集成学习方式的自动标引,能够提高自动标引的质量。为了进一步提高自动标引的质量,本文试图整合统计机器学习模型与集成学习方法的优势,对文档进行基于多分类模型综合投票方式的自动标引。实验结果表明基于集成学习方法的自动标引能提高标引结果的查准率和召回率。另外,集成学习标引模型中,基分类器加权的标引结果,优于基分类器未加权的标引结果。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700