失衡数据集问题是数据挖掘技术中最具挑战性的难点和热点研究问题之一,其研究具有重要的理论价值和广阔的应用前景。本项目旨在针对失衡数据集问题进行专项研究,计划采用预测和分类两种思想相结合的策略,探索有效途径来解决数据类别失衡这一难点问题。本人创造性地提出了"基于分割聚类分层抽样逻辑回归的失衡数据集预测模型"和"基于聚类抽样K近邻核变换的失衡数据集分类模型",两种方法从失衡数据的重采样和算法改进两方面同时入手,分析和研究采样方法与核心算法之间的内在关联性,并有针对性地对一些具体核心问题进行深入探讨与研究,以提高技术层次与研究深度。本人将预测与分类两种不同机理的方法进行融合,相互补充发挥各自的特点,形成面向失衡数据集问题的综合解决方案。最后,在答案抽取和故障检测两个实际应用中检测验证本项目所涉及技术的具体应用效果。
imbalanced data set;re-sampling;clustering;prediction model;classification model
失衡数据集(Imbalanced Data Sets, IDS)是计算机科学、经济学、生物学以及医学等诸多领域中普遍存在的真实观测数据形态,它虽然反映了客观事物的自然本质,但事实上人们往往只关心其中小类别的发生情况。许多研究已经表明,对于失衡数据直接应用一些标准分类模型,不能得到令人满意的分类效果。几乎所有方法在稀有类别上的分类准确性均很低,都不能将对稀有类别的识别水平整体提高到实际可以接受的程度,相关的研究仍需要进一步深入,研究人员面临着巨大的挑战。失衡数据集问题是数据挖掘技术中最具挑战性的难点和热点研究问题之一,其研究具有重要的理论价值和广阔的应用前景。 本项目针对失衡数据集问题进行了专项研究,采用预测和分类两种思想相结合的策略,探索有效途径来解决数据类别失衡这一难点问题。本人创造性地提出“基于分割聚类分层抽样逻辑回归的失衡数据集预测模型”和“基于聚类抽样K近邻核变换的失衡数据集分类模型”,两种方法从失衡数据的重采样和算法改进两方面同时入手,分析和研究采样方法与核心算法之间的内在关联性,并有针对性地对一些具体核心问题进行了深入探讨与研究,如簇边界采样方法,复杂失衡数据的样本剪枝算法,集成学习分类算法、核变换方法以及分层抽样下的参数补偿方法等,提高了技术层次与研究深度。本人将预测与分类两种不同机理的方法进行了融合,相互补充发挥各自的特点,形成了面向失衡数据集问题的综合解决方案。另外,我们在研究的过程中发现对于一些面向失衡数据集的实际应用问题,心理学的一些方法和思想可以进行有效的预测。虽然这种方法并不属于先采样再预测分类这种传统解决失衡数据集问题的策略,但针对一些特定的失衡数据实际问题的解决确实取得了比较好的效果。最后,我们在疾病辅助诊断、客户流失预测、故障检测、视频推荐以及众包欺诈检测等多个实际应用中验证本项目所涉及技术的具体应用效果。 本项目共支持发表高水平学术论文24篇,其中SCI、EI检索16篇;申报发明专利5项,培养博士研究生2名,硕士研究生5名,各项完成成果指标达到或超过任务书中承诺的预期成果。并且,我们将真实环境下的复杂失衡数据处理作为未来工作的主要研究内容,明确了今后工作的研究方向。