摘要
文章结合蒙古文的独特性,研究蒙古文信息检索系统。首先搭建一个用于评价检索性能的蒙古文文档测试集,建立一套蒙古文信息检索系统。实验对比分析检索模型、平滑算法、蒙古文停用词表、词干还原和伪相关反馈等技术对蒙古文信息检索系统关键技术对检索性能的影响。实验结果表明,蒙古文信息检索系统选择结构化语言模型、Dirichlet平滑方法、停用词表、以词根做检索单元和伪相关反馈可以更好地提升检索性能。
This paper focuses on Mongolian information retrieval( IR). The authors build a standard Mongolian document dataset for evaluating the IR performance and set up a Mongolian information retrieval system. Based on them,the influences of related technologies such as IR models,smoothing algorithms,Mongolian stop words,Mongolian word stemming and pseudo-relevance feedback, are compared and analyzed. Experimental results show that the structured language model, Dirichlet smoothing, stop words, word stemming and pseudo-relevance feedback can improve the performance of the Mongolian information retrieval system.
引文
[1][11]巩政,关高娃.蒙古文停用词和英文停用词比较研究[J].中文信息学报,2011(4):35-38.
[2]金威.蒙古文信息检索模型的研究[D].呼和浩特:内蒙古大学,2009.
[3]岳俊英.蒙古文信息检索系统中检索单元选取方法的研究[D].呼和浩特:内蒙古大学,2011.
[4]金艳伟.基于马尔可夫随机场的蒙古文信息检索模型研究[D].呼和浩特:内蒙古大学,2011.
[5]刘娜.基于蒙古文语义的查询扩展研究与实现[D].呼和浩特:内蒙古大学,2012.
[6]辛强.基于共现距离与查询扩展的蒙古文信息检索系统[D].呼和浩特:内蒙古大学,2011.
[7]姜鑫.跨汉蒙语言信息检索中的查询项翻译方法研究[D].呼和浩特:内蒙古大学,2011.
[8]塔娜,林民,李小庆.面向跨语言信息检索的蒙汉语义词典构建初探[J].计算机与数字工程,2010(8):42-45.
[9]巩文婧.基于语言模型的跨汉蒙信息检索技术研究[D].呼和浩特:内蒙古大学,2012.
[10]Zhai C,Lafferty J.A Study of Smoothing Methods for Language Models Applied to Ad Hoc Information Retrieval[C],Proceedings of the 24th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM,2001:334-342.
[12]Bao F,Gao G,Yan X,et al.Segmentation-Based Mongolian LVCSR Approach[C]//Acoustics,Speech and Signal Processing(ICASSP),2013 IEEE International Conference on.IEEE,2013:8136-8139.
[13]Manning C D,Raghavan P,Schütze H.Introduction to Information Retrieval[M].Cambridge:Cambridge University Press,2008.