高维混合型数据聚类问题的研究是近年来数据挖掘研究中提出的新问题,因数据的复杂性使得在全空间上聚类效果不理想。本项目瞄准这一焦点问题,通过研究多种类型数据的信息融合,建立基于遗传算法构建高维混合型数据的子空间聚类模型,开发适用于海量高维数据聚类分析的有效方法,以及在银行客户信用评价中的应用研究。主要研究方向(1)用模糊逻辑研究多种类型数据的信息融合,解决目前信息融合中的信息丢失问题;(2)探索用遗传算法建立高维混合数据聚类子空间搜索模型,研究适应于子空间聚类评估的适应度,为评估子空间聚类效果提供依据,建立基于蚁群算法的主动进化变异机制,使收敛速度提高,而又不会陷入局部极小;(3)开展在银行客户信用评估聚类中的应用研究。
information fusion;mixed data;subspace clustering;holo-entropy;acute hypotension episodes
高维混合型数据聚类问题的研究是近年来数据挖掘研究中提出的新问题,因数据的复杂性使得在全空间上聚类效果不理想。本项目瞄准这一焦点问题,通过研究多种类型数据的信息融合,建立基于信息熵理论构建高维混合型数据的子空间聚类模型,开发适用于海量高维数据聚类分析的有效方法,以及在医学数据预测评价中的应用研究。主要研究成果(1)用信息熵理论研究多种类型数据的信息融合,提出了两种混合数据间相似度的度量方法,在一定程度上解决目前信息融合中的信息丢失问题;(2)探索用全信息熵理论建立高维数据聚类子空间搜索模型,特别在分类型数据聚类问题,研究适应于子空间聚类子空间合并和子簇类合并机制,在理论上探讨了高维数据子空间簇类的结构,首次提出了基于类簇的基本子空间和核心子空间的概念,其结果与实际数据相匹配;(3)开展了在医学数据挖掘的研究,通过对医院重症病人是实时血压值进行聚类分析,以及基于高斯回归模型和理查德分量分解模型进行趋势分析,在一定时间段内对病人发生急性低血压情况进行预测,达到良好的的效果;(4)电子商务中的协同过滤算法在一定程度上提高了推荐效果,我们通过对用户-项目评分矩阵进行基于支持度的项目聚类的方法,减少最近邻居集的搜索空间,提高了推荐效果。