在传统的统计学习理论基础上发展起来的支持向量机是建立在概率空间上基于实随机样本的,它难以处理非概率空间上基于非实随机样本的机器学习问题。不确定统计学习理论是传统的统计学习理论的重要发展和拓广,它建立了处理非概率空间上基于非实随机样本的机器学习问题的统计学基础。本项目旨在不确定统计学习理论的基础上建立系统的不确定支持向量机并将其应用于实际问题中。主要研究内容(1)构造广义不确定测度空间上基于广义不确定样本的具有最大间隔的超平面和广义不确定测度空间上基于广义不确定样本的核函数和凸规划模型;(2)构建不确定测度、集值测度和复测度空间上基于非实随机样本的支持向量机、带有交互作用样本的不确定支持向量机以及概率空间上基于随机集、直觉模糊集和未确知集样本的支持向量机;(3)给出已公开发表有代表性的非传统支持向量机的统计学习理论解释;(4)不确定支持向量机在生物特征识别和文本分类等实际问题中的应用。
Support vector machine;uncertain statistical learning;maximum margin hyperplane;kernel function;convex programming
本项目在不确定统计学习理论的基础上建立了系统地处理广义不确定测度空间上基于广义不确定样本分类问题的支持向量机(简称,不确定支持向量机),并将其应用于生物特征识别和文本分类等实际问题中,同时进一步完善了不确定统计学习理论。主要研究内容(1)设计了广义不确定测度空间(可信性测度空间和不确定测度空间)上基于广义不确定样本(模糊样本、二型模糊样本以及不确定样本)的具有最大间隔(含优化软间隔)的超平面,并构造了相应的核函数和凸规划模型。(2)针对非概率空间上存在着大量的非实随机样本的情形,基于广义模糊集值测度理论,分别构建了可信性测度空间上基于模糊样本的支持向量机、不确定测度空间上基于不确定样本的支持向量机以及期望模糊可能性测度空间上基于二型模糊样本的支持向量机,数值实验验证了这类不确定支持向量机的有效性。(3)在概率空间上,利用模糊集理论和直觉模糊理论,分别构建了基于模糊支持向量机的模糊分类器、直觉模糊支持向量机和基于直觉模糊数和核函数的支持向量机,它们比传统支持向量机和模糊支持向量机能更加有效地消除噪声的影响。此外,在概率空间上还构建了基于随机集样本(一类集值样本)的支持向量机,能够处理随机集样本的分类问题。数值实验验证了上述不确定支持向量机的有效性。(4) 给出了已公开发表有代表性的非传统支持向量机的统计学习理论解释,给出了相应的统计学习理论基础。(5)不确定支持向量机在生物特征识别(如人脸识别等)和文本分类(如基于内容的垃圾邮件过滤等)实际问题中得到了成功的应用。(6)提出了基于直觉模糊覆盖的广义直觉模糊粗糙集模型,研究了广义区间二型模糊粗糙集的特征,进一步拓展了不确定支持向量机的数学基础。