利用带无标签数据的双支持向量机对恒星光谱分类

CORC > 国家天文台 > 中国科学院国家天文台

	利用带无标签数据的双支持向量机对恒星光谱分类
	刘忠宝 4; 雷宇飞 4; 宋文爱 3; 张静 3; 王杰 2; 屠良平 1
刊名	光谱学与光谱分析
	2019
卷号	039 期号:003 页码:948
ISSN号	1000-0593
英文摘要	恒星光谱分类是天文技术与方法领域一直关注的热点问题之一。随着观测设备持续运行和不断改进,人类获得的光谱数量与日俱增。这些海量光谱为人工处理带来了极大挑战。鉴于此,研究人员开始关注数据挖掘算法,并尝试对这些光谱进行数据挖掘。近年来,神经网络、自组织映射、关联规则等数据挖掘方法广泛应用于恒星光谱分类。在这些方法中,支持向量机(SVM)以其强大的学习能力和高效的分类性能而备受推崇。SVM的基本思想是试图在两类样本之间找到一个最优分类面将两类分开。SVM在求解时,通过将其最优化问题转化为具有(QP)形式的凸问题,进而得到全局最优解。尽管该方法在实际应用中表现优良,但为了进一步提高其分类能力,有的学者提出双支持向量机(TSVM)。该方法通过构造两个非平行的分类面将两类分开,每一类靠近某个分类面,而远离另一个分类面。TSVM的计算效率较之传统SVM提高近4倍,因此,自TSVM提出后便受到研究人员的持续关注,并出现若干改进算法。在恒星光谱分类中,一般分类算法都是根据历史观测光谱来建立分类模型,其中最关键的是对光谱进行人工标注,这项工作极为繁琐,且容易犯错。如何利用已标记的光谱以及部分无标签的光谱来建立分类模型显得尤为重要。因此,提出带无标签数据的双支持向量机(TSVMUD)用以实现对恒星光谱智能分类的目的。该方法首先将光谱分为训练数据集和测试数据集两部分;然后,在训练集上进行学习,得到分类依据;最后利用分类依据对测试集上的光谱进行验证。继承了双支持向量机的优势,更重要的是,在训练集上学习分类模型过程中,不仅考虑有标记的训练样本,也考虑部分未标记的样本。一方面提高了学习效率,另一方面得到更优的分类模型。在SDSSDR8恒星光谱数据集上的比较实验表明,与支持向量机SVM、双支持向量机TSVM以及K近邻(KNN)等传统分类方法相比,带无标签数据的双支持向量机TSVMUD具有更优的分类能力。然而,该方法亦存在一定的局限性,其中一大难题是其无法处理海量光谱数据。该工作将借鉴海量数据随机采样思想,利用大数据处理技术,来对所提方法在大数据环境下的适应性展开进一步研究。
语种	英语
内容类型	期刊论文
源URL	[http://ir.bao.ac.cn/handle/114a11/42493]
专题	中国科学院国家天文台
作者单位	1.辽宁科技大学 2.中国科学院国家天文台 3.中北大学 4.泉州信息工程学院
推荐引用方式 GB/T 7714	刘忠宝,雷宇飞,宋文爱,等. 利用带无标签数据的双支持向量机对恒星光谱分类[J]. 光谱学与光谱分析,2019,039(003):948.
APA	刘忠宝,雷宇飞,宋文爱,张静,王杰,&屠良平.(2019).利用带无标签数据的双支持向量机对恒星光谱分类.光谱学与光谱分析,039(003),948.
MLA	刘忠宝,et al."利用带无标签数据的双支持向量机对恒星光谱分类".光谱学与光谱分析 039.003(2019):948.