特征选择是重要的高维数据预处理步骤,在图像、金融、生物及医学等领域均有广泛应用。基于训练样本类别标记信息的监督学习常具有优于非监督学习的特征选择性能,但却深受训练样本类别标注准确率的影响。而在实际应用中广泛存在类噪声,即训练数据的类别标注并不完全准确,这大大降低了特征选择的精度及可靠性。已有研究尚未考虑类噪声的影响,故本项目拟原创性地展开类噪声环境下健壮的监督学习特征选择算法研究,主要内容包括1)分析类噪声对特征选择算法性能的影响;2)分析类噪声过滤对特征选择算法性能的影响;3)结合类噪声过滤和半监督学习思想,设计显性使用噪声数据的特征选择算法;4)引入模糊学习思想,基于模糊隶属度设计隐性使用噪声数据的特征选择算法。本项目的研究成果对特征选择算法的理论发展和实际应用将起到积极的促进作用。
Class noise;Feature selection;Unlabeled data;Single voting;Multiple voting
本项目展开类噪声环境下监督学习特征选择算法研究,目前,项目已按预期目标顺利完成,并取得一系列成果,主要研究成果包括学习并分析filter类型的特征选择算法在类噪声环境下的性能,分析结果显示,在类噪声存在时,所有被研究的filter算法性能都会受到影响,并且,其性能随着类噪声比率的变大而变差,类噪声的影响在小样本集情况下尤为严重,本项目的研究成果证实了开展类噪声环境下特征选择研究的必要性;在证明类噪声对特征选择存在危害后,本项目的另一研究成果是综合分析了已有的类噪声识别算法,介绍每种算法的思想、实现方式、优缺点等,为开展类噪声检测研究打下坚实基础;在综述已有类噪声检测算法后,本研究分析了已有算法的不足,针对应用最为广泛的Majority Filtering (MF) 和Consensus Filtering(CF)算法,提出了改进。已有MF/CF算法虽然效果在同类算法中较好,但其存在的主要问题在于算法不稳定,其不稳定的主要来源是其采用的检测方式,MF/CF从原理上讲,属于单次投票方式,一次性决定样本是否为噪声,这种方式随机性较大,在某些情况下检测正确的样本,在另一环境下可能无法正确检测。因此,本项目提出了新颖的基于多次投票的类噪声检测算法,理论和实验分析显示该算法可以有效提高MF/CF的稳定性和准确性;类噪声经过检测并删除后,剩余样本的数量可能不足以进行特征选择,为了解决此问题,本项目提出了用无标计样本改进特征选择算法性能的思想。本研究基于粗糙集理论的特征选择算法,通过提出的MultiQuickReduct算法,无标记样本有效的应用到特征选择环境下,解决了监督型特征选择算法一般需要大量有标记样本的要求。本项目相关的研究成果已在英文专著Measurement,Instrumentation, and Sensors Handbook, 及Knowledge-based Systems期刊(SCI检索,影响影子3.058),Mathematical Problems in Engineering (SCI检索,影响因子1.082)等多个SCI/EI杂志中发表。依托于本项目的研究成果,申请人获得了国家自然科学基金委员会与韩国国家研究基金会2013年度联合资助合作交流项目(题目基于生活记录的健康管理决策支持引擎研究,科学部编号613111015)。