基于支持向量机方法的剪接位点预测
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
随着越来越多的基因组数据的产生,通过生物信息学方法预测基因成为研究基因表达和功能的重要课题。而真核细胞基因中的剪接位点对基因的功能表达有着重要的影响,因此剪接位点预测研究是基因预测中非常重要的一个子课题,对完整地认识基因有重要的意义。
     本文中把这剪接位点识别问题看作是利用剪接位点附近序列特征进行真假位点的分类问题。首先,采用基于混合核函数的模糊支持向量机方法对剪接位点进行识别,并且把识别效果与一般的支持向量机方法进行了比较分析。结果显示此方法相对于一般的单核支持向量机有一定的提高。其后,提出了多支持向量机方法,它通过对不同的预测信息加权组合,并利用模拟退火算法进行多支持向量机模型的参数优化选择,获得一个综合的最终结果。实验结果显示这种简单的方法也能提高剪接位点的识别率。
As more and more genome data is generated, it’s the main target to make use ofbioinformatic methods to study the function and the expression process of gene. Andsplice sites of eukaryotic cells is an important factor in the expression of gene. So it isa very important part of gene prediction and helpful to understand gene function.
     We can consider it as a classification problem, which is studied by making use ofthe features near splice sites to distinguish the real sites from DNA sequences. At first,we make use of fuzzy support vector machine based on mixture kernels to recognizethe splice sites, and compare the results with basic support vector machine. Itsrecognition rate is higher the basic one kernel SVM methods. Then the multi-SVMs isput forward to resolve this classification problem. This method synthesizes differentprediction information with different weights to get a last result and optimize theseparameters by Simulated Annealing algorithm. We found this simple method can getbetter results than the basic support vector machine.
引文
[1]王翼飞,史定华.生物信息学:智能化算法及其应用[M].北京:化学工业出版社,2006
    [2]杨晶,胡刚,王圭等.生物计算:生物序列的分析方法与应用[M].北京:科学出版社,2010
    [3]皮埃尔.巴尔迪,索恩.布鲁纳克.生物信息学——机器学习方法[M].北京:中信出版社,2003.145-197
    [4]朱玉贤,李毅.现代分子生物学[M].北京:高等教育出版社,2002
    [5]郑用琏.基础分子生物学[M].北京:高教出版社,2007
    [6]周艳红,王卉,杨雷.基于特征挖掘与融合的剪接位点识别[J].华中科技大学学报,2006,34(12):117-120
    [7]黄金艳,李通化,陈开.基于知识编码的剪接位点预测[J].同济大学学报,2007,35(11):1548-1551
    [8]张鹏飞,李前忠,左永春等.基于位置关联权重矩阵及DNA结构信息预测人类剪接位点[J].内蒙古大学学报,2010,41(4):390-396
    [9]孙贺全,彭勤科,张全伟.基于序列模式特征和SVM的剪接位点预测[J].计算机工程,2009,35(5):180-182
    [10]Sonnenburg S,Ratsh G,Rieck K.Large Scale Learning with String kernels[J].Journal ofMachine Learning Research,2006,7:1531-1565
    [11]闻芳,卢欣,孙之荣等.基于支持向量机(SVM)的剪接位点识别[J].生物物理学报,1999,15(4):733-739
    [12]晏春,杜耀华,高青斌等.基于支持向量机的人类5'非翻译区剪接位点识别[J].生物物理学报,2005,21(4):284-287
    [13]Chun-Fu Lin,Sheng-De Wang.Fuzzy Support Vector Machines.IEEE Transaction on NeuralNetworks,2002,13(2):464-471
    [14]李应红等.支持向量机的工程应用[M].北京:兵器工业出版社,2004
    [15]薛依铭.基于机器学习方法的基因剪接位点识别研究[D].无锡:江南大学,2007
    [16]苏洪全,朱义胜.基于改进的自组织神经网络的基因剪接位点的识别[J].大连海事大学学报,2009,35(3):61-64
    [17]何明辉,李胜,李平等.基于SA组合算法的SVM参数选取[J].计算机工程与应用,2010,46(22):37-40
    [18]翟永杰,王子杰.基于PSO优化的SMO算法研究及应用[J].华北电力大学学报,2008,35(1):57-61
    [19]任文进,钟清流.基于混沌粒子群的支持向量机参数优化[J].科学技术与工程,2007,7(18):4597-4600
    [20]王世卿,曹彦.基于遗传算法和支持向量机的特征选择研究[J].计算机工程与设计,2010,31(18):4088-4089
    [21]丁勇,秦晓明,何寒晖.支持向量机的参数优化及其文本分类中的应用[J].计算机仿真,2010,27(11):187-190
    [22]本杰明.卢因.基因八[M].北京:科学出版社,2005
    [23]Sonnenburg S.New Methods for Splice Site Recognition[D].Berlin:Huboldt-Univeristy,2002
    [24]李建晶.基于支持向量机的基因剪接位点研究[D].天津:河北工业大学,2009
    [25]黑斯蒂等.统计学习基础——数据挖掘、推理与预测[M].北京:电子工业出版社,2004.259-287
    [26]泰勒,克瑞斯天尼.模式分析的核方法[M].北京:机械工业出版社,2006.69-276
    [27]邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004
    [28]杨柳,张磊,张少勋等.单核和多核相关向量机的比较研究[J].计算机工程,2010,36(12):195-197
    [29]汪洪桥,孙富春,蔡艳宁.多核学习方法[J].自动化学报,2010,36(8):1037-1050
    [30]李仁兵,李艾艾,白向峰.支持向量机的进化多核设计[J].控制理论与应用.2011,28(6)
    [31]王炜,郭小明,王淑艳等.关于核函数选取的方法[J].辽宁师范大学学报,2008,31(1)
    [32]张翔,肖小玲,徐光佑.基于样本之间紧密度的模糊支持向量机方法[J].软件学报,2006,17(5):951-958
    [33]冯玉蓉.模拟退火算法的研究及其应用[D].昆明:昆明理工大学,2004
    [34]Sonnenburg S,Gabriele Schweikert,Petra Philips etc.Accurate splice site prediction usingsupport vector machines[J].BMC Bioinformatic

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700