位置:立项数据库 > 立项详情页
不确定数据分类学习的支持向量机算法研究
  • 项目名称:不确定数据分类学习的支持向量机算法研究
  • 项目类别:青年科学基金项目
  • 批准号:61105054
  • 申请代码:F030504
  • 项目来源:国家自然科学基金
  • 研究期限:2012-01-01-2014-12-31
  • 项目负责人:谢宗霞
  • 依托单位:哈尔滨工业大学
  • 批准年度:2011
中文摘要:

不确定性是真实数据的本质特征, 表现为样本不确定、属性不确定和决策模糊等。经典的支持向量机算法没有考虑数据的不确定性。现有的不确定支持向量机仅考虑了决策模糊的情形,应用于不确定采样和属性值模糊或随机的不确定数据分类建模时存在一系列问题。 本研究尝试突破当前不确定数据管理领域以"可能世界模型"为基础的不确定数据表示模型,系统分析随机性、语义模糊性和有限分辨率带来的粗糙性等不确定性,建立广义的不确定性表示模型和度量工具。在此基础上研究不确定数据的核函数构造和学习算法以及广义不确定数据的支持向量机优化目标和求解策略,由此得到随机数、区间数、模糊数以及模糊随机变量的支持向量机分类的理论基础和算法框架。 本研究吸收了不确定建模和图像识别中核函数构造的成果,具有很好的研究基础。本研究将改善支持向量机的实用性,也为其它学习算法拓展到不确定数据提供理论参考。

结论摘要:

在此基金项目的资助下,申请团队共发表了8篇论文,其中6篇论文被SCI检索,6篇论文被EI检索,并荣获一项深圳市自然科学奖。主要完成了基于核函数的不确定数据建模和特征选择方法,并将算法应用到实际的天文图像知识发现中。对于属性不确定的实际数据而言,往往不是通过一个确定的数来表示,而是通过满足某种分布的一串数。所以现有的不确定支持向量机模型忽略了不确定数据中数据的波动信息。结合不确定数据的波动信息,主要的研究内容及成果如下第一,提出了基于加性核的不确定支持向量机算法。引入图像识别中的加性核将不确定数据样本映射到高维空间,从而有效的得出了样本之间的相似性。并在该高维空间构造线性分类面对数据进行分类建模。该不确定支持向量机算法能简单的把经典支持向量机算法用于处理不确定数的分类建模。其优化的目标函数与经典支持向量机算法一致,利用现有直方图交集核函数的快速算法能保证算法的时效性。第二,进一步对不确定数据的拟合进行了研究,并将该算法应用到风速预报中。对于风速预报而言,其每个样本点对应的方差都不相同。如果直接利用传统的方式进行建模,方差信息几乎完全丢失。针对这个问题,我们采用概率核函数对由均值和方差表示的高斯分布不确定数据直接进行相似性度量,接着利用SVM对其进行拟合建模。该算法相对于直接利用均值来进行建模在信息利用上更加丰富。第三,研究了不确定数据的特征选择方法。采用稀疏成组LASSO模型将每个特征的一串数据点作为一个组来计算特征的权重,不仅能对特征组进行稀疏选择,而且对特征组内部的数据特征点也能进行稀疏选择,从而有效的减少了不确定数据的特征维数。第四,研究了基于间隔分布的多分类器集成算法。引入间隔分布的指标来对bagging算法选择基分类组合的子集。利用平方的Hinge损失函数和l1正则项组合形成目标函数。我们通过优化基分类的权重是的分类损失最小,同时通过正则项来控制集成的大小。这个优化问题能转换成标准的L1LS优化问题,易于求解,且可以通过参数来控制权向量的稀疏性。第五,研究了不确定数据建模在太阳图像中的应用。天文图像中包含大量的不确定信息,同时随着分辨率的提高,图像的数据量很大。利用图像知识发现的方法能对大规模的图像数据进行自动检测和规律分析,能较快并较客观的推动天文领能较快并较客观的推动天文领域的发展,能有效的辅助我们认识太阳及其规律。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 9
  • 1
  • 0
  • 0
  • 0
相关项目
期刊论文 28 会议论文 9
期刊论文 24 会议论文 4
期刊论文 68 会议论文 25 著作 1
谢宗霞的项目