本项目以国家重大科学工程LAMOST项目为背景,对面向LAMOST天文光谱特征线的高效数据挖掘方法与技术进行深入研究,主要研究内容包括天文光谱特征线数据预处理、基于一阶谓词逻辑的天文光谱特征线背景知识表示技术、约束FP树的I/O性能与快速构造算法、基于约束FP树的天文光谱数据特征线相关性分析技术、面向局部偏离数据挖掘的海量高维数据相关性分析、局部偏离数据点的度量因子与子空间搜索算法、基于子空间的天文光谱特征线局部偏离数据挖掘技术,以及面向LAMOST天文光谱特征线的数据挖掘系统开发等。该课题研究不仅为实现未知、特殊天文光谱数据和天文规律的知识发现,提高LAMOST的高效科学产出,提供了相应的核心支撑技术和手段;而且也为提高海量、高维数据挖掘方法的效率和质量,提供了有效的途径。
celestial spectrum;data mining;spectrum characteristic line;local outlier;interrelation analysis
本项目以国家重大科学工程LAMOST项目为应用背景,对面向LAMOST天文光谱特征线的数据挖掘方法与技术进行深入研究,已圆满完成了计划任务书规定的研究内容,取得较好的研究成果,达到了预期研究目标。主要研究成果包括提出一种面向多连续属性离散化的模糊C均值聚类算法,以及天文光谱特征线软离散化方法;采用一阶谓词逻辑作为天体光谱知识表示技术,提出了一种基于约束FP树的天文光谱特征线相关性分析方法,并对约束FP树的I/O性能进行了实验分析;提出了一种基于加权频繁模式树的恒星光谱关联规则挖掘方法;提出了一种基于属性权值和Wk距离和的天体光谱异常特征线挖掘;提出了一种利用子空间划分的局部离群数据挖掘方法;提出了一种基于局部加权K密度的离群数据挖掘算法等。在此基础上,设计与实现了天文光谱特征线相关性分析原型系统,以及天文光谱局部偏离特征线数据挖掘原型系统。该课题研究不仅为实现未知、特殊天文光谱数据和天文规律的知识发现,提高LAMOST的高效科学产出,提供了相应的核心支撑技术和手段;而且也为提高海量、高维数据挖掘方法的效率和质量,提供了有效的途径。在该项目的资助,已在国际国内学术刊物和会议上,发表与录用学术论文12篇,其中SCI刊物论文8篇、EI刊物论文1篇,EI国际会议论文2篇。