蒙古文信息检索系统的设计与研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Design and Research on Mongolian Information Retrieval System
  • 作者:鲍玉来 ; 白淑霞 ; 李广华
  • 英文作者:Bao Yulai;Bai Shuxia;Li Guanghua;
  • 关键词:信息检索 ; 蒙古文信息检索 ; 蒙古文Stemming ; 平滑算法 ; 检索评价
  • 英文关键词:information retrieval;;Mongolian information retrieval;;Mongolian Stemming;;smoothing algorithems;;retrieval evaluation
  • 中文刊名:TSSS
  • 英文刊名:Research on Library Science
  • 机构:内蒙古大学图书馆;内蒙古大学计算机学院;
  • 出版日期:2017-03-15
  • 出版单位:图书馆学研究
  • 年:2017
  • 期:No.400
  • 基金:国家自然科学基金项目“基于领域本体的蒙古文数字资源整合机制研究”(项目编号:71163029)资助成果
  • 语种:中文;
  • 页:TSSS201705012
  • 页数:9
  • CN:05
  • ISSN:22-1052/G2
  • 分类号:76-84
摘要
文章结合蒙古文的独特性,研究蒙古文信息检索系统。首先搭建一个用于评价检索性能的蒙古文文档测试集,建立一套蒙古文信息检索系统。实验对比分析检索模型、平滑算法、蒙古文停用词表、词干还原和伪相关反馈等技术对蒙古文信息检索系统关键技术对检索性能的影响。实验结果表明,蒙古文信息检索系统选择结构化语言模型、Dirichlet平滑方法、停用词表、以词根做检索单元和伪相关反馈可以更好地提升检索性能。
        This paper focuses on Mongolian information retrieval( IR). The authors build a standard Mongolian document dataset for evaluating the IR performance and set up a Mongolian information retrieval system. Based on them,the influences of related technologies such as IR models,smoothing algorithms,Mongolian stop words,Mongolian word stemming and pseudo-relevance feedback, are compared and analyzed. Experimental results show that the structured language model, Dirichlet smoothing, stop words, word stemming and pseudo-relevance feedback can improve the performance of the Mongolian information retrieval system.
引文
[1][11]巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011(4):35-38.
    [2]金威.蒙古文信息检索模型的研究[D].呼和浩特:内蒙古大学,2009.
    [3]岳俊英.蒙古文信息检索系统中检索单元选取方法的研究[D].呼和浩特:内蒙古大学,2011.
    [4]金艳伟.基于马尔可夫随机场的蒙古文信息检索模型研究[D].呼和浩特:内蒙古大学,2011.
    [5]刘娜.基于蒙古文语义的查询扩展研究与实现[D].呼和浩特:内蒙古大学,2012.
    [6]辛强.基于共现距离与查询扩展的蒙古文信息检索系统[D].呼和浩特:内蒙古大学,2011.
    [7]姜鑫.跨汉蒙语言信息检索中的查询项翻译方法研究[D].呼和浩特:内蒙古大学,2011.
    [8]塔娜,林民,李小庆.面向跨语言信息检索的蒙汉语义词典构建初探[J].计算机与数字工程,2010(8):42-45.
    [9]巩文婧.基于语言模型的跨汉蒙信息检索技术研究[D].呼和浩特:内蒙古大学,2012.
    [10]Zhai C,Lafferty J.A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval[C],Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2001:334-342.
    [12]Bao F,Gao G,Yan X,et al.Segmentation-Based Mongolian LVCSR Approach[C]//Acoustics,Speech and Signal Processing(ICASSP),2013 IEEE International Conference on.IEEE,2013:8136-8139.
    [13]Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval[M].Cambridge:Cambridge University Press,2008.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700