摘要
现有的密度峰值聚类算法存在时间复杂度过高和空间复杂度过高的问题,基于此,论文提出。通过网络划分的方法,将各个数据点映射到相应的网格来解决这个问题,并且在计算网格密度时为了解决网格划分对密度分布的割裂引入了邻域网格密度贡献的概念,克服了传统网格划分所产生的不平滑现象。此方法降低了聚类计算时的时间复杂度和空间复杂度,使得算法适用与大规模数据聚类。通过在数据集上进行实验显示该算法在保证准确性的前提下能有效减少时间和空间复杂度。
引文
[1]Jain A K,Murty M N,Flynn P J.Data Cluatering:A Review[J].ACMComputering Surverys,1999,31(3):264-323.
[2]贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007(01):10-13.
[3]Rodriguez A,Laio A.Clustering by fast serach and find of density peaks.Science,2014,344(6191);1492-1496.
[4]赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(09):83-85+89.
[5]卜长莉.“差序格局”的理论诠释及现代内涵[J].社会学研究,2003(01):21-29.
[6]杨洁,王国胤,庞紫玲.密度峰值聚类相关问题的研究[J].南京大学学报(自然科学),2017,53(04):791-801.
[7]高永梅,黄亚楼.一种基于网格和密度的数据流聚类算法[J].计算机科学,2008(02):134-137.