半监督特征降维及其在天文光谱数据中的应用
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
数据降维是指在给定的一个样本空间,依据特定的法则,找到高维数据的低维表示,并且能够保持原始数据的潜藏的内在信息。数据降维技术主要解决维数灾难问题,数据降维依据有无标号信息和成对约束条件等分为三个不同的类型,分别是有监督数据降维、无监督数据降维和半监督数据降维。本文以传统数据降维算法FDA和PCA为研究对象,建立了半监督数据降维的框架,实现了光谱数据的半监督降维分析同时对半监督降维系数的选择、光谱数据标号信息的选择进行了研究,其主要研究成果如下:
     一、建立了基于FDA和PCA的半监督降维框架。该框架通过分析比较Fisher判别分析和PCA降维的算法,指出它们在数据特征提取中的不足,既Fisher判别分析是有监督的降维算法,降维结果过分拟合于标号数据,PCA是无监督的降维算法,不能有效的利用样本数据中的标号信息,并实验验证了该框架的有效性。
     二、给出了一种基于Fisher判别的天体光谱数据半监督特征降维。该方法首先针对天体光谱数据,建立Fisher判别分析和PCA可变动选择的不确定关系;其次构建其半监督降维的全局最优化形式,通过特征值分解计算降维结果,从而有效地克服了天体光谱降维过程中的过分拟合问题;最后采用高红移类星体和晚型星SDSS天体光谱特征线数据集,实验验证了该方法的有效性。
Data dimension reduction can find a low dimension expression of highdimensional data based on specific laws in a given sample space,and it cankeep inner information of the original data. Data dimension reduction mainlysolve disaster problem. Data dimension reduction is divided into three differenttypes according to category information,it is supervised data dimensionreduction,unsupervised data dimension reduction and semi-supervised datadimension reduction.The semi-supervised data dimension reduction is builtbased on traditional algorithm of FDA and PCA.The paper realizesemi-supervision dimension reduction in the spectral data,with semi-supervisiondimension reduction as the foundation. At the same time, the paper study choiceof semi-supervised dimension reduction, choice of label information.Its mainresearch results are introduced in the next:
     (1) The semi-supervised framework is built about FDA and PCA. Thefisher discriminant analysis and PCA are compared in the framework, andshortage in data feature extraction is pointed out. The fisher discriminantanalysis overfit the label data in the dimension reduction.The PCA can noteffectively use label information.The experiment check the result of analysis.
     (2)The semi-supervised dimension reduction of spectral characteristicbased on fisher discriminant analysis is presented. Firstly, for celestial spectraldata, an uncertainty relation is established in which fisher discriminant analysisand PCA can be selected variably. Secondly, the global optimization ofsemi-supervised dimensionality reduction is built. Dimensionality reductionresults are calculated through the eigenvalue decomposition,So that the problemof over-fitting is solved in astronomical spectral data dimensionality reduction.In the end, The method is validated validity in the experiment by using thehzqso and mstar astronomical spectral features line data sets.
引文
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.
    [2] Jiawei Han, Micheline Kamber著,范明,孟晓峰等译,数据挖掘概念与技术[M],北京:机械工业出版社,2005.
    [3]杨风召,朱扬勇.高维数据挖掘中若干关键问题的研究[D].复旦大学博士学位论文,2003.
    [4]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003.
    [5]黄移军,许青松.基于局部线性嵌入的高维数据降维研究[D].长沙:中南大学,2009.
    [6]赵玲玲.半监督降维和分类算法研究[D].西安:西安电子科技大学,2009.
    [7]梁胜杰,张志华,崔立林,钟强晖.基于主成分分析与核独立成分分析的降维算法[J].系统工程与电子技术,2011,9(33):2144-2145.
    [8]方连娣,胡凤霞.核实数据下非线性EV模型中经验似然降维推断[J].数学杂志,2012,22(1):113-114.
    [9]吴晓婷,闫德勤.改进的非线性数据降维方法及其应用[J].计算机工程与应用.2011,47(2):157-158.
    [10]倪国强,沈渊婷,徐大琦.一种基于小波PCA的高光谱图像特征提取新方法[J].北京理工大学学报,2007,27(7):622-623.
    [11]朱艳,刘晓莉,杨哲海.高光谱数据的降维及Tabu搜索[J].测绘科学技术学报.2007,1(24):23-24.
    [12]王瀛,郭雷,梁楠.基于优选样本的KPCA高光谱图像降维方法[J].光子学报,2011,6(40):847-849.
    [13]相文楠,赵建立.监督型稀疏保持投影[J].计算机工程与应用.2011,47(29):187-187.
    [14]任珂,蔡明,李亚平.基于概率密度距离的监督特征选择[J].计算机工程与设计,2009,30(17):4067-4068.
    [15]赵武锋,沈海斌,严晓浪.监督降维算法的计算和理论分析[J].浙江大学,2009,36(6):671-671
    [16]吴正寅,薛安荣,李明.基于权值的局部保持半监督降维算法[J].计算机应用与研究.2011,28(4):1245-1246.
    [17]陈斌辉,白清源.半监督复杂结构数据降维方法[J].计算机工程与应用,2011,35(47):135-137.
    [18]韦佳,彭宏.基与局部与全局保持的半监督维数约简算法[J].软件学报,2008,,11(19):2833-2834.
    [19]张乾坤,高新波.无监督与半监督降维算法研究[D].西安:西安电子科技大学,2010
    [20] Polito M,Perona P. Groupin gand dimensionality reduction by locally linear embedding[C]∥NIPS,Vancouver,British Columbia,Canada,2001:1255-1262.
    [21] F.C.WuZ.Y.Hu.The LLE and a linear mapping[J].Pattern Recognition,2006,39(2):1799-1804.
    [22]常甜甜,刘卫红.支持向量机学习算法若干问题的研究[D].西安:西安电子科技大学,2010.
    [23]李乡儒,胡占义,赵永恒,李晓明.RVM有监督特征提取与Seyfert光谱分类[J].光谱学与光谱学分析,2009,29(6):1702-1703.
    [24] A.Asuncion,D.J.Newman,UCI machine learning repository,2007.
    [25]余养强,黄添强.半监督学习若干问题的研究[D].福州:福建师范大学,2010.
    [26]金骏,张道强.半监督的聚类和降维研究及应用[D].南京:南京航空航天大学,2007.
    [27]易星,边肇祺.半监督学习若干问题的研究[D].北京:清华大学,2004.
    [28]刘伟涛,许信顺.半监督学习方法及其应用研究[D].济南:山东大学,2011.
    [29] Y.Song,F.Nie,C.Zhang,S.Xiang,A Unified framework for semi-superviseddimensionality reduction[J],Pattern Recognition41(2008)2789–2799.
    [30]王雨春,王展青.CCA在数字图像处理中的应用研究[D].武汉:武汉理工大学,2006.
    [31]张田昊,杨杰.数据降维算法研究及其应用[D].上海:上海交通大学,2008.
    [32] Ailon,N,Liberty,E.Fast dimension reduction using rademacher series on dual bchcodes.Discrete and Computational Geometry,2008.
    [33]孙琳,秦文华,吴冬梅.基于PCA和核FDA的人脸识别研究[J].通信技术,2011.
    [34]陈巧娜,孙仕亮.距离度量学习的理论:核回归、大间隔最近邻与Fisher线性判别[D].上海:华东师范大学,2010.
    [35]安文娟,孙德山.Fisher和支持向量综合分类器[D].大连:辽宁师范大学,2010.
    [36]杜世强,李万社.基于核Fisher判别的人脸识别方法研究[D].西安:陕西师范大学,2007.
    [37]庄红波,张健.函数变换法求经典Fisher方程的显示解[D].成都:四川师范大学学,2006.
    [38]谭璐.高维数据的降维理论及应用[D].长沙:国防科技大学博士学位论文,2005.
    [39]张继福,蔡江辉.面向LAMOST的天体光谱离群数据挖掘系统研究[J].光谱学与光谱分析,2007,27(3):606-60.
    [40]覃冬梅,胡占义,赵永恒.一种基于主分量分析的恒星光谱快速分类法[J].光谱学与光谱分析,2003,23(1):182-182.
    [41]张怀福.小波在LAMOST光谱处理中的应用[D].北京:北京交通大学,2008.
    [42]刘蓉,勒红梅,段福庆.基于Bayes决策的光谱分类[J].光谱学与光谱分析,2010,30(3):838-839.
    [43]姜斌,潘景昌,郭强,衣振萍.基于二维主分量分析的光谱数据降维方法[J].现代电子技术,2007,14(21):21-22.
    [44]赵梅芳,吴潮.基于K近邻方法的窄线与宽线活动星系核的自动光谱分类[J].天文学报,2007,48(1):1-2.
    [45]李乡儒,胡占义,赵永恒.基于Fisher判别分析的有监督特征提取和星系分类[J].光谱学与光谱分析,2007,27(9):1888-1889.
    [46]宋欣,叶世伟.基于直接估计梯度思想的数据降维算法[J].计算机工程,2008,34(8):205-205.
    [47]黄移军,许青松.基于局部线性嵌入的高维数据降维研究[D].长沙:中南大学,2009.
    [48] Fukunaga,K.Introduction to statistical pattern recognition (2nd ed)[D].San Diego:Academic Press,1990.
    [49] Belkin,M,&Niyogi,P.Laplacian eigenmaps for dimensionality reduction and datarepresentation[C].Neural Computation,2003,15:1373–1396.
    [50]吴晓婷,闫德勤.数据降维方法分析与研究[J].计算机应用与研究,2009,26(8):2832-2833.
    [51] Chen,Guangyi.Denoising and dimensionality reduction of hypersepectral imagery usingwavelet packets,neighbour shrinking and principal component analysis[J].InternationalJournal of Remote Sensing,2009,30(18):4889-4890.
    [52] O.Chapell,B.scholkopf,A.Zien,Semi-supervised learning[D].The MITP Press,Cambrage,MA,2006.
    [53] L.Zelnik-Manor,P.Perona,,Self-tuning spectral clustering[J].in:NIPS,vol.17,2004,pp:1601–1608.
    [54]曹苏群,王士同.基于模糊Fisher准则的聚类与特征降维研究[J].无锡:江南大学,2009.
    [55] Zha.H.Y&Zhang.Zh.Y.Spectral properties of the alignment matrices in manifoldlearning[J].SIAM Review,2009,(51):545-565.
    [56] Hitendra Sarma.An improvement to nearest classifier[C].2011IEEE Recent Advancesin Intelligent Computational Systems,RAICS2011,pp:227-231.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700