基于N-gram模型的哈萨克词干提取方法
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:The Method of Kazakh Word Lemmatization Based on N-gram Model
  • 作者:吾兰·努鲁别克 ; 热木土拉·麦麦提 ; 艾斯卡尔·艾木都拉
  • 英文作者:Ulan·Nurembek;Rahmotola·Mamat;Askar·Hamdulla;School of Information Science and Engineering, Xinjiang University;
  • 关键词:哈萨克语 ; 形态 ; 词干提取 ; N-gram模型 ; 词缀
  • 英文关键词:kazakh;;form;;word lemmatization;;n-gram model;;affix
  • 中文刊名:DNZS
  • 英文刊名:Computer Knowledge and Technology
  • 机构:新疆大学信息科学与工程学院;
  • 出版日期:2017-04-25
  • 出版单位:电脑知识与技术
  • 年:2017
  • 期:v.13
  • 基金:国家自然科学基金项目(61562081)
  • 语种:中文;
  • 页:DNZS201712074
  • 页数:3
  • CN:12
  • ISSN:34-1205/TP
  • 分类号:166-168
摘要
哈萨克语是组成结构复杂的黏着性语言,哈萨克语词干提取词缀提取对哈萨克语信息处理领域具有很重要的意义。从哈萨克语粘着性特点出发,哈萨克语词干词缀的构成规则而且和统计模型特点结合,以N-gram语言模型为主框架,根据哈萨克语的构词约束条件,提出了N-gram语言模型的哈萨克词干提取模型。实验结果表明,N-gram语言模型对哈萨克词干的准确提取是有效的,该模型的词干级准确率达到了72.34%。
        Kazak language is a complex language with complex structure, Kazakh stemming affix extraction is important for the Kazakh language information processing. This article from the Kazakh adhesion characteristics, rules of Kazak stems and affixes and characteristics and statistical model combining, Based on the N-gram language model, according to the Kazakh word formation constraints, This paper put forward The N-gram model Kazakh stemming model. The experimental results show that the accurate extraction of Kazakh stem N-gram language model is effective, This level of the model accuracy was 72.34%.
引文
[1]古丽拉·阿东别克.基于规则的哈萨克语词干提取系统的研究[A].中国中文信息学会民族语言文字信息专委会.民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C].中国中文信息学会民族语言文字信息专委会,2007:6.
    [2]达吾勒·阿布都哈依尔,古丽拉·阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008(19):146-149.
    [3]达吾勒·阿布都哈依尔,海拉提·克孜尔别克.基于规则的哈萨克语词干提取算法的研究[J].新疆大学学报:自然科学版,2011(2):238-241.
    [4]江阿古丽·哈依达尔,卡哈尔江·阿比的热西提,阿里木江·亚森,等.一种哈萨克语句子相似度计算方法的研究[J].新疆大学学报(自然科学版),2012,(04):471-474+479.
    [5]李婧,刘海峰.现代哈萨克语词干提取研究[J].信息通信,2015(7):103-104
    [6]江阿古丽·哈依达尔.哈萨克语名词构形词缀有限状态自动机的构造[A].中国中文信息学会、新疆大学、内蒙古大学.少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C].中国中文信息学会、新疆大学、内蒙古大学:,2010:5.
    [7]玛依来·哈帕尔,古丽拉·阿东别克.基于N-gram的哈萨克语文本校对系统的设计与实现[J].计算机应用与软件,2012(4):9-12+15.
    [8]王花,古丽拉·阿东别克.基于语料的哈萨克语词频统计研究[J].计算机工程,2010(24):59-61.
    [9]王花.基于语料的哈萨克语词频统计的研究[A].中国中文信息学会、新疆大学、内蒙古大学.少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C].中国中文信息学会、新疆大学、内蒙古大学,2010:4.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700