异常挖掘在许多领域中具有很高的实用价值,可用来避免或减少不必要的损失。本项目针对大规模数据集和数据流的特点,以研究面向大规模数据集和数据流的高精度、高效率聚类算法为基础,设计基于聚类的异常挖掘算法和分类算法;由于异常数据挖掘与稀有类分类之间存在一定的共性,对稀有类的分类进行了研究;考虑到数据预处理的需要,进行了数值属性离散化、特征选择方面的研究;同时将数据流异常挖掘应用于入侵检测和欺诈检测等实际领域。设计了一组具有近似线性时间复杂度并可以识别任意形状数据的聚类算法;设计了无监督的近似等频和基于局部密度的离散化方法,其性能接近经典的有监督离散化方法;对特征选择进行了深入研究,提出了几种有效的有监督和无监督的特征选择方法;提出了连续特征与离散特征之间相关性度量问题,并进行了初步研究,设计了一种度量混合特征相关性的方法,将之应用于特征选择,取得了很好的结果;将C4.5、Ripper等分类算法与聚类算法结合,使之在不平衡数据集上的分类性能明显提高。实验表明,我们提出的算法在可扩展性、时效性、准确性和自适应性等方面有很好的性能。
英文主题词high-efficient clustering algorithm, outlier mining, feature selection, imbalanced classification