基于KNN模型的藏文文本分类研究与实现
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Implementation and Classification for the Tibetan Text Based on the KNN
  • 作者:苏慧婧 ; 群诺 ; 贾宏云
  • 英文作者:SU Hui-jing;Qunnuo;JIA Hong-yun;school of information science and technology, Tibet university;
  • 关键词:藏文文本分类 ; 文本特征 ; KNN模型
  • 英文关键词:Tibetan text classification;;text feature;;KNN model
  • 中文刊名:PTSR
  • 英文刊名:Plateau Science Research
  • 机构:西藏大学信息科学技术学院;
  • 出版日期:2019-06-15
  • 出版单位:高原科学研究
  • 年:2019
  • 期:v.3;No.7
  • 语种:中文;
  • 页:PTSR201902014
  • 页数:5
  • CN:02
  • ISSN:54-1065/N
  • 分类号:94-98
摘要
随着文本分类技术的日益成熟,越来越多的分类模型已经被引用到藏文文本分类的研究和实验中,其中KNN分类模型由于其简单易操作等特点被广泛应用。文章以新闻类文本为语料,通过KNN模型对藏文文本进行分类研究与实验。首先,构建文本词特征向量并对其进行相关降维处理;然后,利用欧式距离算法获取预测样本与训练样本之间的相似度;最后,根据K最近邻投票原理,预测样本类别。实验表明KNN模型对藏文文本的分类性能较好。
        With the increasing maturity of text categorization techniques, more and more classification models have been cited in researches and experiments of Tibetan text categorization. Since a simple and an easy operation of KNN classification model, the model is widely used. This paper uses the news text as the corpus to classify and experiment the Tibetan text through the KNN model. Firstly, constructed the text word feature vector and performed related dimensionality reduction processing, and then used the Euclidean distance algorithm to obtain the prediction sample and the training sample. Similarity, and finally predict the sample category according to the K nearest neighbor voting principle. Experiments showed that the model fits for Tibetan text classification.
引文
[1]贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报(自然科学版),2011,32(3):24-29.
    [2]朱常宝,程勇,高强.基于半监督深度信念网络的图像分类算法研究[J].计算机科学,2016,43(S1):46-50.
    [3]李航.统计学习方法[M].北京:清华大学出版社,2012:3.
    [4]杨玉珍,刘培玉,朱振方,等.应用特征项分布信息的信息增益改进方法研究[J].山东大学学报(理学版),2009,44(11):48-51.
    [5]陈冲.互联网中文文本分类的研究与应用[D].北京:北京邮电大学,2011.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700