摘要
首先利用K-medoids聚类算法对训练样本集进行剪裁,去除相似度程度较低的样本。结合Hadoop平台的MapReduce框架,采用改进KNN分类算法对数量不等的测试样本集在不同节点上进行了加速比并行化计算。实验结果表明,该方法的计算时间和分类效率均有改善。
K-medoids clustering algorithm is used to tailor the training sample set for removing the samples with low degree of similarity.Parallel acceleration rate calculation for different samplings at different nodes are carried out with the improved KNN classification algorithm under MapReduce framework of the Hadoop platform.Experimental results show that the classification efficiency and calculation time are improved.
引文
[1]姜奇平.大数据时代到来[J].互联网周刊,2012(2):6-10.
[2]柴艳妹,雷陈芳.基于数据挖掘技术的在线学习行为研究综述[J].计算机应用研究,2018,35(5):1287-1293.
[3]任朋启,王芳,黄树成.一种改进的文本分类算法[J].电子设计工程,2017,25(18):1-5.
[4]邓振云,龚永红,孙可,等.基于局部相关性的KNN分类算法[J].广西师范大学学报:自然科学版,2016,34(1):52-58.
[5]涂敬伟,皮建勇.基于MapReduce和分布式缓存的KNN分类算法研究[J].微型机与应用,2015,34(2):18-21.
[6] Doug Cutting.Apache Hadoop YARN[EB/OL].[2018-08-25].Http://hadoop.apache.org/.
[7] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
[8]郭博洋.大数据hadoop的来源与介绍[J].计算机产品与流通,2017(10):155.
[9]王泽儒,王红梅,李芬田.基于Hadoop的2FPGrowth算法[J].长春工业大学学报,2018,39(2):150-155.
[10]夏靖波,韦泽鲲,付凯,等.云计算中Hadoop技术研究与应用综述[J].计算机科学,2016,43(11):6-11,48.
[11]毋雪雁,王水花,张煜东.K最近邻算法理论与应用综述[J].计算机工程与应用,2017,53(21):1-7.
[12]樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43.