数据聚类分析是模式识别和知识发现中一个极为重要的技术。实际数据除了巨大的规模和不断加快的采集速度等特点外,它还不可避免地会受到各种噪声污染,但传统的聚类算法通常对噪声极为敏感,近年来设计的许多稳健聚类算法也因其精度较低或运算量太大使得应用范围受到限制,而直接利用视觉直读的方式剔除噪声又因数据的巨大规模和高维性而更受限制,因此许多应用领域迫切需要设计快速、稳健的聚类方法。根据生物信息处理具有极强的抗噪声能力这一事实,本项目试图将大脑神经元的非线性编码机制及神经元响应的动力学机制用于稳健聚类算法的设计。所获结果作为一种快速有效的稳健数据挖掘方法,有望广泛用于处理自然科学和国民经济各领域的实际数据。
对于噪声数据的稳健聚类分析是模式识别和知识发现中一个极为重要的技术。本项目将大脑神经元的非线性编码机制及神经元响应的动力学机制用于稳健聚类算法的设计,建立了神经元编码的两种非线性机制-指数扩张和群体增益控制与聚类的各种隶属度之间的联系,其中包括刻画指数扩张机制的神经元反应函数和心理物理学反应函数与典型性隶属度(typicality)和族类相似性(family resemblance)之间的联系;刻画群体增益机制的归一化函数与模糊隶属度之间的关系;以及由二者联合确定的最终稳健隶属度。据此设计的算法的抗噪声能力由神经元反应函数和群体增益控制的半饱和参数控制。同时,我们还研究了与求解稳健聚类问题相关的总体优化方法,提出了一类由聚类方法推广而得到的变量规划(Variable Programming)和一类基于动态聚类的微分演化算法,设计了包括两步法在内的数个总体优化算法。这些方法改进了现有方法的效率,扩大了总体优化方法的应用范围。所设计的算法被用于电力负荷预测和电力调度,获得了较好的实验结果。