一种加权K-均值基因聚类算法
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:A Weighted K-means Gene Clustering Algorithm
  • 作者:姚登举 ; 詹晓娟 ; 张晓晶
  • 英文作者:YAO Deng-ju;ZHAN Xiao-juan;ZHANG Xiao-jing;School of Software,Harbin University of Science and Technology;College of Computer Science and Technology,Heilongjiang Institute of Technology;
  • 关键词:微阵列表达数据 ; 聚类分析 ; 随机森林 ; K-均值
  • 英文关键词:microarray expression data;;clustering analysis;;random forest;;K-means
  • 中文刊名:HLGX
  • 英文刊名:Journal of Harbin University of Science and Technology
  • 机构:哈尔滨理工大学软件学院;黑龙江工程学院计算机科学与技术学院;
  • 出版日期:2017-04-25
  • 出版单位:哈尔滨理工大学学报
  • 年:2017
  • 期:v.22
  • 基金:黑龙江省教育厅2014年度科学技术研究面上项目(12541124)
  • 语种:中文;
  • 页:HLGX201702026
  • 页数:6
  • CN:02
  • ISSN:23-1404/N
  • 分类号:116-120+127
摘要
针对微阵列表达数据集中基因-基因之间存在复杂相关关系的问题,基于随机森林变量重要性分数,提出了一种新的加权K-均值基因聚类算法。首先,以微阵列表达数据中的样本为对象、基因为特征,训练随机森林分类器,计算每个基因的变量重要性分数;然后,以基因为对象、样本为特征、基因的变量重要性分数为权重进行K-均值聚类。在Leukemia、Breast、DLBCL等3个微阵列表数据集上进行了实验,结果表明:所提出的加权K-均值聚类算法与原始的K-均值聚类算法相比,类间距离与总距离的比值平均高出17.7个百分点,具有更好的同质性和差异性。
        In view of the complex correlation between gene and gene in the microarray data set,a weighted Kmean gene clustering algorithm based on random forest variable importance score was proposed. First,the proposed algorithm begins with training random forest classifier on the microarray data,using the samples as objects and the genes as features,variable importance scores were calculated for each gene; then,a weighted K-means clustering were performed with genes as objects,samples as features,and variable importance score as weighted value.Experiments were carried out on Leukemia,Breast and DLBCL three datasets. The experimental results show that the proposed weighted K-mean clustering algorithm has an average of 17. 7 percentage points higher than the original K-mean clustering algorithm with respective to the ratio of the distance between the class and the total distance and has better homogeneity and difference.
引文
[1]周志华.机器学习[M].北京:清华大学出版社,2016:211-213.
    [2]刘帅,林克正,孙旭东,等.基于聚类的SIFT人脸检测算法[J].哈尔滨理工大学学报,2014,19(1):31-35.
    [3]吴娱,钟诚,尹梦晓.基因表达数据的分层近邻传播聚类算法[J].计算机工程与设计,2016,37(11):2961-2966.
    [4]陈伟,程咏梅,张绍武,潘泉.邻域种子的启发式454序列聚类方法[J].软件学报,2014,25(5):929-938.
    [5]黄伟华,马中,戴新发,徐明迪,高毅,刘利民.一种特征加权模糊聚类的负载均衡算法[J].西安电子科技大学学报(自然科学报),2017,44(2):138-143.
    [6]余晓东,雷英杰,岳韶华,王睿.基于粒子群优化的直觉模糊核聚类算法研究[J].通信学报,2015,36(5):1-7.
    [7]李霞,雷健波,李亦学,李劲松.生物信息学[M].北京:人民卫生出版社,2015:286-287.
    [8]李雨童,姚登举,李哲,侯金利.基于R的医学大数据挖掘系统研究[J].哈尔滨理工大学学报,2016,21(2):38-43.
    [9]高敬阳,齐飞,管瑞.基于高通量测序技术的基因组结构变异检测算法[J].生物信息学,2014,12(1):5-9.
    [10]李晟,程福东,孙啸.高通量DNA测序技术与疾病诊断及预防[J].生物医学工程与临床,2016,20(2):210-215.
    [11]吴林寰,陆震鸣,龚劲松,史劲松,许正宏.高通量测序技术在食品微生物研究中的应用[J].生物工程学报,2016,32(9):1164-1174.
    [12]岳峰,孙亮,王宽全,王永吉,左旺孟.基因表达数据的聚类分析研究进展[J].自动化学报,2008,34(2):113-120.
    [13]张国印,程慧杰,刘咏梅,姚爱红.一种新算法在基因表达谱聚类中的应用[J].计算机工程与应用,2009,45(36):216-218.
    [14]王爱国.微阵列基因表达数据的特征分析方法研究[D].安徽:合肥工业大学,2015:1-5.
    [15]ALI Anaissi,PAUL J KENNEDY,Madhu Goyal1.Daniel R Catchpoole.A Balanced Iterative Random Forest for Gene Selection from Microarray Data[J].BMC Bioinformatics,2013,14:261P.
    [16]QI,Y.Random Forest for Bioinformatics[J].Ensemble Machine Learning,2012:307-323.
    [17]孙磊,许驰,胡学龙.一种基于随机森林的长非编码RNA预测方法[J].扬州大学学报:自然科学版,2016,19(4):50-53.
    [18]ELBASIONY R M,SALLAM E A,ELTOBELY T E,et al.A Hybrid Network Intrusion Detection Framework Based on Random Forests and Weighted k-means[J].Ain Shams Engineering Journal,2013,4(4):753-762.
    [19]BREINMAN L.Random Forests[J].Machine Learning,2001,45:5–32.
    [20]姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报工学版,2014,44(1):137-141.
    [21]VERIKAS A,GELZINIS A,BACAUSKIENE M.Mining Data with Random Forests:A Survey and Results of New Tests[J].Pattern Recognition,2011,44:330–349.
    [22]刘勘,袁蕴英,刘萍.基于随机森林分类的微博机器用户识别研究[J].北京大学学报(自然科学版),2015,51(2):289-300.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700