基于Hadoop平台的改进KNN分类算法并行化处理

英文篇名：Parallel processing of improved KNN classification algorithm based on Hadoop platform
作者：马莹 ; 赵辉 ; 崔岩
英文作者：MA Ying;ZHAO Hui;CUI Yan;School of Computer Science and Engineering,Changchun University of Technology;
关键词：K-最近邻 ; K-medoids聚类算法 ; Hadoop平台 ; 并行化
英文关键词：K-nearest neighbor;;K-medoids clustering algorithm;;Hadoop platform;;parallelization
中文刊名：JLGX
英文刊名：Journal of Changchun University of Technology
机构：长春工业大学计算机科学与工程学院;
出版日期：2018-10-15
出版单位：长春工业大学学报
年：2018
期：v.39;No.158
基金：吉林省教育厅“十二五”科学技术研究基金资助项目(2014132)
语种：中文;
页：JLGX201805012
页数：6
CN：05
ISSN：22-1382/T
分类号：74-79

摘要

首先利用K-medoids聚类算法对训练样本集进行剪裁,去除相似度程度较低的样本。结合Hadoop平台的MapReduce框架,采用改进KNN分类算法对数量不等的测试样本集在不同节点上进行了加速比并行化计算。实验结果表明,该方法的计算时间和分类效率均有改善。
K-medoids clustering algorithm is used to tailor the training sample set for removing the samples with low degree of similarity.Parallel acceleration rate calculation for different samplings at different nodes are carried out with the improved KNN classification algorithm under MapReduce framework of the Hadoop platform.Experimental results show that the classification efficiency and calculation time are improved.

引文

[1]姜奇平.大数据时代到来[J].互联网周刊,2012(2):6-10.
    [2]柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J].计算机应用研究,2018,35(5):1287-1293.
    [3]任朋启,王芳,黄树成.一种改进的文本分类算法[J].电子设计工程,2017,25(18):1-5.
    [4]邓振云,龚永红,孙可,等.基于局部相关性的KNN分类算法[J].广西师范大学学报:自然科学版,2016,34(1):52-58.
    [5]涂敬伟,皮建勇.基于MapReduce和分布式缓存的KNN分类算法研究[J].微型机与应用,2015,34(2):18-21.
    [6] Doug Cutting.Apache Hadoop YARN[EB/OL].[2018-08-25].Http://hadoop.apache.org/.
    [7] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
    [8]郭博洋.大数据hadoop的来源与介绍[J].计算机产品与流通,2017(10):155.
    [9]王泽儒,王红梅,李芬田.基于Hadoop的2FPGrowth算法[J].长春工业大学学报,2018,39(2):150-155.
    [10]夏靖波,韦泽鲲,付凯,等.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11,48.
    [11]毋雪雁,王水花,张煜东.K最近邻算法理论与应用综述[J].计算机工程与应用,2017,53(21):1-7.
    [12]樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700