基于混合方法的维吾尔语词干提取方法研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Novel approach for Uyghur stemmer using mixed method
  • 作者:热娜·艾尔肯 ; 李晓 ; 艾尼宛尔·托乎提
  • 英文作者:RANA·Arkin;LI Xiao;ANWAR·Tohti;Xinjiang Technical Institute of Physics & Chemistry,Chinese Acaderay of Sciences;Xinjiang Institute of Standardization;Key Laboratory of Multilingual Information Technology,Xinjiang University;
  • 关键词:维吾尔语 ; 形态变化 ; 词干 ; 词缀 ; 规则方法 ; 词典方法 ; 混合方法 ; Lovin算法
  • 英文关键词:Uyghur;;morphological changes;;stem;;affixes;;rule method;;dictionary method;;mixed method;;Lovin algorithm
  • 中文刊名:JSYJ
  • 英文刊名:Application Research of Computers
  • 机构:中国科学院新疆理化技术研究所;新疆维吾尔自治区标准化研究院;新疆大学新疆多语种实验室;
  • 出版日期:2014-08-27 12:29
  • 出版单位:计算机应用研究
  • 年:2015
  • 期:v.32;No.279
  • 语种:中文;
  • 页:JSYJ201501027
  • 页数:4
  • CN:01
  • ISSN:51-1196/TP
  • 分类号:118-120+126
摘要
针对维吾尔语形态变化,提出了利用规则和词典相结合的混合处理方法进行形态还原技术。利用从左到右地分析和Lovin算法实现了词干提取器。通过总结词法连接规则,提出了规则实现词干提取、用词典验证提取结果。经过对不同新闻内容的五次测试得出平均准确率达到了77.4%。
        This paper proposed changes in morphology of Uygur language,mixed processing method using a combination of rules and dictionaries phase morphology reduction technology.And proposed rules stemming and used a dictionary method to verify the extraction results.It are performed tests on the different combination of features.Experimental results show achieves recall of 77.4%.
引文
[1]The Porter stemming algorithm[EB/OL].[2014-01-25].http://tartarus.org/martin/Porter Stemmer/.
    [2]The lancaster stemming algorithm[EB/OL].[2014-01-21].http://www.comp.lancs.ac.uk/computing/research/stemming/.
    [3]The Lovins stemming algorithm[OL].[2013-12-21].http://snowball.tartarus.org/algorithms/lovins/stemmer.html.
    [4]DAWSON J L.Suffix removal for word conflation[J].Bulletin of the Association for Literary&Linguistic Computing,1974,2(3):33-46.
    [5]MAYFIELD J,MCNAMEE P.Single n-gram stemming[C]//Proc of the 26th Annual International Retrieval.New York:ACM Press,2003:415-416.
    [6]MELUCCI M,ORIO N.A novel method for stemmer generation based on hidden Markov models[C]//Proc of the 12th International Conference on Information and Knowledge Management.New York:ACM,2003:131-138.
    [7]AISHA B,SUN Ma-song.A statistical method for uyghur tokenization[C]//Proc of IEEE International Conference on NLP-KE.2009:383-387.
    [8]AISHAN W,TUERGEN Y,ZAOKERE K.Shengwei tian conditional random fields combined FSM stemming method for uyghur proceeding[C]//Proc of the 2nd IEEE International Confrence on Computer and Information Technology.2009:295-299.
    [9]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等.维吾尔语名词构形词缀有限状态自动机的构造[J].中文信息学报,2009,23(6):116-121.
    [10]阿依克孜·卡德尔,开沙尔·卡德尔,吐尔根·依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006(3):43-48.
    [11]司马义·阿不都热依木.现代维吾尔语造词法研究[D].乌鲁木齐:新疆大学,2006.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700