作者:李超,张文辉,李然,王俊义,林基明
摘要:机器学习在当今诸多领域已经取得了巨大的成功,但是机器学习的预测效果往往依赖于具体问题.集成学习通过综合多个基分类器来预测结果,因此,其适应各种场景的能力较强,分类准确率较高.基于斯隆数字巡天(Sloan Digital Sky Survey,SDSS)计划恒星/星系中最暗源星等集分类正确率低的问题,提出一种基于Stacking集成学习的恒星/星系分类算法.从SDSS-DR7(SDSS Data Release 7)中获取完整的测光数据集,并根据星等值划分为亮源星等集、暗源星等集和最暗源星等集.仅针对分类较为复杂且困难的最暗源星等集展开分类研究.首先,对最暗源星等集使用10折嵌套交叉验证,然后使用支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、XGBoost(eXtreme Gradient Boosting)等算法建立基分类器模型;使用梯度提升树(Gradient Boosting Decision Tree,GBDT)作为元分类器模型.最后,使用基于星系的分类正确率等指标,与功能树(Function Tree,FT)、SVM、RF、GBDT、XGBoost、堆叠降噪自编码(Stacked Denoising AutoEncoders,SDAE)、深度置信网络(Deep Belief Network,DBN)、深度感知决策树(Deep Perception Decision Tree,DPDT)等模型进行分类结果对比分析.实验结果表明,Stacking集成学习模型在最暗源星等集分类中要比FT算法的星系分类正确率提高了将近10%.同其他传统的机器学习算法、较强的提升算法、深度学习算法相比,Stacking集成学习模型也有较大的提升.
发文机构:桂林电子科技大学信息与通信工程学院 桂林电子科技大学认知无线电与信息处理教育部重点实验室 桂林电子科技大学广西云计算与大数据协同创新中心 桂林电子科技大学广西高校云计算与复杂系统重点实验室 桂林电子科技大学广西无线宽带通信与信号处理重点实验室 广西高校卫星导航与位置感知重点实验室
关键词:恒星:基本参数星系:基本参数技术:测光方法:数据分析stars:fundamental parametersgalaxies:fundamental parameterstechniques:photometricmethods:data analysis
分类号: P152[天文地球—天文学]