面向文档信息检索的排序学习算法

英文篇名：Sorting Learning Algorithm for Document Information Retrieval
作者：周祖坤 ; 杨光 ; 冯小坤
英文作者：ZHOU Zu-kun;YANG Guang;FENG Xiao-kun;Kunming Metallurgy College;Yunman Culture Art Vocational College;Dianchi College Yunnan Vniversity;
关键词：排序学习 ; 信息检索 ; 查询差异 ; 排序模型融合 ; 损失函数
英文关键词：learning to rank;;information retrieval;;query diversity;;rank aggregation;;loss function
中文刊名：ZDHJ
英文刊名：Techniques of Automation and Applications
机构：昆明冶金高等专科学校;云南文化艺术职业学院;云南大学滇池学院;
出版日期：2018-02-25
出版单位：自动化技术与应用
年：2018
期：v.37;No.272
语种：中文;
页：ZDHJ201802009
页数：6
CN：02
ISSN：23-1474/TP
分类号：44-49

摘要

在基于排序学习的信息检索中,不同的查询及其待排序的文档序列之间有较大的差异性,传统的排序学习方法忽视了不同查询之间的差异性。另一方面,由于各个排序学习算法的偏好和侧重的不同,影响了在验证数据集中的排序性能。针对以上问题,本文提出了基于模型融合的有监督学习的多排序模型学习算法。此算法用每一个人工标注的查询-文档序列训练子模型以获得查询特征,并赋予每一个子模型不同的得分权重。用带系数的反三角函数优化定义的融合损失函数并使其连续且可导,通过多次迭代的梯度上升法训练出合适的子模型权重值和相关系数,综合各文档的得分和子模型的权重值为查询所对应的文档序列排序。最后本文通过在多个数据集下进行对比实验,证明了基于模型融合的有监督学习的多排序模型学习算法比传统排序学习算法有更好的性能。
In the information retrieval based on learning to rank, there is a big difference between the different queries and sequences of documents that need to be ranked. Traditional models of learning to rank ignore the differences between different queries. On the other hand, the ranking performance on the verification data set is reduced as the preference and emphasis of each ranking algorithm are different. In view of the above problems, this paper proposes a rank aggregation framework with supervised learning. Firstly each sub-model is trained with each manually annotated query-document sequences and gives a scoring weight to obtain the query features. Then, the inverse trigonometric function with a coefficient to optimize the defined aggregation loss function is used to make it continuous and derivable. The appropriate values of coefficient and the weights are trained by the iterative method of gradient descent. And queries with corresponding document sequences take the scores and weights from each sub-model into account. By experiments, this paper proves that the rank aggregation framework with supervised learning has better performances than traditional models of learning to rank on multiple data sets.

引文

[1]薛剑,吕立,孙咏,王丹妮.应用位置信息损失的Listwise排序学习方法的研究[J].小型微型计算机系统,2017,(1):20-23.
    [2]司莉,陈雨雪,曾粤亮.基于多语言本体的中英跨语言信息检索模型及实现[J].图书情报工作,2017,(1):100-108.
    [3]华晨彦,邹艳珍,朱子骁,谢冰.基于代码模式的软件问答文档检索优化方法[J].计算机科学与探索,2016,(2):1-9.
    [4]闵攀,徐虹.基于Hadoop的Page Rank算法的研究与改进[J].成都信息工程学院学报,2015,(6):577-581.
    [5]韩彩丽,李嘉骏,张晓培,肖敏.基于语义属性特征图的查询扩展方法[J].计算机应用,2015,(2):440-443.
    [6]李海秋.网络环境下信息检索技术研究[J].计算机光盘软件与应用,2014,(5):93-94.
    [7]周利娟,林鸿飞,闫俊.基于TLDA和SVSM的音乐信息检索模型[J].计算机科学,2014,(2):174-178.
    [8]仲兆满,李存华,刘宗田,戴红伟.面向Web新闻的事件多要素检索方法[J].软件学报,2013,(10):2366-2378.
    [9]刘进.子流形平均曲率向量场的线性相关性[J].数学学报,2013,(5):669-686.
    [10]洪欢,王明文,万剑怡,廖亚男.基于迭代方法的多层Markov网络信息检索模型[J].中文信息学报,2013,(5):122-128.
    [11]杨春龙,顾春华.基于概念语义相似度计算模型的信息检索研究[J].计算机应用与软件,2013,(6):88-92.
    [12]谢辉,陆月明,孙松林.基于半监督学习的一种图像检索方法[J].计算机应用研究,2013,(7):2210-2212.
    [13]花贵春,张敏,刘奕群,马少平,茹立云.面向排序的基于查询需求的查询聚类模型[J].计算机研究与发展,2012,(11):2407-2413.
    [14]卢敏,黄亚楼,谢茂强,王扬,刘杰,廖振.代价敏感的列表排序算法[J].计算机研究与发展,2012,(8):1738-1746.
    [15]金光赫,王兴伟,曲大鹏,蒋定德.一种基于相关反馈的信息检索模型[J].计算机科学,2012,(7):140-143.
    [16]田欢.浅析信息检索模型的现状及趋势[J].计算机光盘软件与应用,2012,(1):22+46.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700