基于多策略的乌孜别克语名词词干识别研究
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Study on Recognition of Uzbek Noun Stems Based on Multi-strategy
  • 作者:艾孜海尔江 ; 祖力克尔江 ; 艾孜尔古丽 ; 玉素甫·艾白都拉
  • 英文作者:Azhar;Zulkar;Azragul;Yusup Abaydula;School of Computer Science and Technology,Xinjiang Normal University;College of Arts,Xinjiang Normal University;
  • 关键词:乌孜别克语 ; 形态分析 ; 多策略 ; 名词词干识别
  • 英文关键词:Uzbek language;;morphological analysis;;multi-strategy;;noun stems recognition
  • 中文刊名:MESS
  • 英文刊名:Journal of Chinese Information Processing
  • 机构:新疆师范大学计算机科学技术学院;新疆师范大学文学院;
  • 出版日期:2018-09-15
  • 出版单位:中文信息学报
  • 年:2018
  • 期:v.32
  • 基金:国家语委重点项目(ZD1135-28);; 国家自然科学基金(6186020472,61662081);; 新疆维吾尔自治区自然科学基金(2017D01A58);; 新疆维吾尔自治区青年科技创新人才培养工程(QN2016BS0365);; 国家社会科学基金(14AZD11);; 新疆维吾尔自治区社会科学基金(2016CYY067);; 国家语言资源监测与研究中心少数民族语言分中心项目(NMLR201602);; 新疆师范大学计算机应用重点学科;新疆师范大学数据安全重点实验室资助项目
  • 语种:中文;
  • 页:MESS201809006
  • 页数:6
  • CN:09
  • ISSN:11-2325/N
  • 分类号:39-44
摘要
乌孜别克语名词词干识别是自然语言处理领域的基础研究,主要方法是从句子中提取名词词干,提高名词标注效率和准确性。该文首先陈述形态分析、形态特征对识别其词性的作用,然后讨论乌孜别克语的词类划分标准、名词的形态特征,乌孜别克语西尔里文转换拉丁文,乌孜别克语词汇翻译、标注技术,总结词缀歧义及消解规则。该文提出利用形态规则、词典、最大熵融合策略,设计现代乌孜别克语新词中名词词干识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。最后以乌孜别克语网站文本作为验证对象,对名词词干进行统计与分析。
        Uzbek language noun stems recognition is aimed at extracting noun stems from the sentence,thereby improving the efficiency of nouns recognition.We first discuss the classification of part-of-speech of Uzbek words and the morphological analysis of nouns,summarizing the affix and ambiguity resolution rules in Uzbek language.Then we put forward the algorithm for Uzbek new nouns recognition,include the internal features,the feature selection,the parameter estimation,and the word dependency features.Taking the Uzbek Web text as test object,the noun stems are finally identified with additional statistical analysis.
引文
[1]帕提古丽·艾合买提,艾孜尔古丽,阿不都热依木,等.基于信息处理的乌孜别克语语音变化现象自动还原技术研究[J].电脑知识与技术,2017,12(32):177-179.
    [2]祖日古丽·艾合买提,艾孜尔古丽,玉素甫·艾白都拉.论乌孜别克语的音节结构[J].课外语文,2017(01):178-179.
    [3]阿西穆·托合提.维吾尔语—乌孜别克语机器翻译研究[D].乌鲁木齐:新疆大学硕士学位论文,2018.
    [4]阿西穆·托合提,早克热·卡德尔,吐尔根·依布拉音,艾山·吾买尔.乌孜别克语-维吾尔语双语语料库构建平台的设计与实现[J].电脑知识与技术,2017,13(7):1-2,10.
    [5]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用,2013,49(1):171-175.
    [6]艾孜尔古丽.现代维吾尔文网络媒体用词研究[J],计算机应用与软件,2012(2):67-68.
    [7]马建军.面向机器翻译的英语功能名词短语识别研究[D].大连:大连理工大学博士学位论文,2012.
    [8]斯·劳格劳,乌达巴拉.融合形态特征的最大熵蒙古文词性标注模型[J].计算机研究与发展,2011,40(12):2385-2390.
    [9]阿达来提.乌孜别克语的传据范畴初探[J].民族翻译,2013(1):84-90.
    [10]艾孜尔古丽等.基于网站用词调查的现代维吾尔语词干提取和应用[J].计算机应用与软件,2012,29(4):13-15.
    [11]艾孜尔古丽等.九年义务教育维吾尔语文新课标普通班教材用词研究[C].第四届全国少数民族青年自然语言信息处理学术研讨会,2012.
    [12]艾孜尔古丽等.现代维吾尔语语言监测中词频与词种分析技术研究[C].第六届青年计算语言学国际会议,2012.
    [13]玉素甫·艾白都拉等.维语中心语驱动文法句法分析器中的上下文相关处理[J].计算机应用与软件,1999(6):45-48.
    [14]玉素甫·艾白都拉.维语句法分析器中的词义排歧问题的研究[J].计算机应用与软件,2002(4):59-62.
    [13]玉素甫·艾白都拉等.现代维吾尔语语料库的词类标注研究[J],民族语文,2005(4):63-66.
    [14]古丽巴努木·克拜吐里,古丽巴霍尔·伊斯坎达洛娃.乌孜别克语教程[M].北京:中央民族大学出版社,2016:1-348.
    [15]力提甫·托乎提·现代维吾尔语参考语法[M].北京:中国社会科学出版社,2012.
    [16]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,等.维吾尔语名词构形词缀有限状态自动机的构造[J].中文信息学报,2009,23(6):116-121.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700