位置:立项数据库 > 立项详情页
基于大型巡天数据的挖掘方法研究
  • 项目名称:基于大型巡天数据的挖掘方法研究
  • 项目类别:联合基金项目
  • 批准号:11178021
  • 申请代码:A0310
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2014-12-31
  • 项目负责人:张彦霞
  • 依托单位:中国科学院国家天文台
  • 批准年度:2011
中文摘要:

随着各种地面和空间观测设备的建立,天文学已经步入多波段天文学时代。如何从海量的天文数据中提取信息和发现知识是天文学家不得不面对的客观问题。将来自不同项目或波段的海量数据联合起来需要高效的数据存储技术和交叉证认工具。为提高交叉证认的效率,我们采用并行算法来改进。对于交叉证认后的多波段数据,在数据预处理阶段,研究各种特征提取和特征选择方法;数据挖掘阶段,探讨各种挖掘算法在多维参数空间中的应用。对比各种分类方法对多波段数据分类的效果,聚类方法用以为LAMOST选取特殊天体或稀有天体,回归方法用以星系和类星体红移的自动测量。通过与其他波段数据的交叉证认,研究LAMOST观测源的多波段特性。这些方法的成功应用将有助于天文学家处理和分析多波段数据,发现知识,以此来带动天文理论和技术的发展和完善,对LAMOST项目的第三个科学目标的实现和光谱处理有着非常重要的实用价值。

结论摘要:

主要调研和研究了各种类星体选源方法,比较了他们的优劣。构建了以支持矢量机为基础的分类系统用于从大型巡天数据中选取类星体候选体。针对正在运行的郭守敬望远镜项目的特点,应用支持矢量机、极端消卷积、多波段的物理方法选取类星体候选体;考虑类星体在射电和X射线波段的特殊特性,以FIRST、NVSS、ROSAT、Chandra和XMM巡天项目数据作为输入星表。研究了k近邻方法在类星体测光红移预测方面的性能,从研究结果可以发现k近邻方法表现出优于其他方法的预测精度,而且发现增加波段,有助于解决红移灾难问题;在实际的应用中,支持矢量机尽管在解决分类问题时显示出其独特优势,而在红移估计时性能显著下降。基于SDSS巡天数据和SDSS与UKIDSS的融合数据,研究了XMM源在多维参数空间的分布情况,恒星显示出有规律的分布特点,尤其在增加了红外数据,恒星很容易与星系和类星体区分开;对于小样本非平衡数据,随机森林和旋转森林的分类性能明显优于其他机器学习方法。开发了自动化入库和融合工具,使得天文学家管理和交叉大型的巡天数据更加便捷。开发了类星体光谱识别的辅助工具,实现了光谱识别和红移测量的自动化,增加了那些低信噪比的光谱识别的可靠性。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 16
  • 12
  • 0
  • 0
  • 0
相关项目
期刊论文 14 会议论文 4
期刊论文 43 会议论文 9
期刊论文 29 会议论文 3
张彦霞的项目