位置:成果数据库 > 期刊 > 期刊详情页
面向大规模数据属性效应控制的核心向量回归机
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江南大学数字媒体学院,江苏无锡214122, [2]湖北交通职业技术学院交通信息学院,武汉430079
  • 相关基金:国家自然科学基金项目(61300151,61572236);江苏省杰出青年基金项目(BK20140001);江苏省自然科学基金项目(BK20130155,BK20151299)
中文摘要:

属性效应在现实生活中广泛存在,如果不加以控制,将会严重影响回归学习的性能.针对大规模数据属性效应控制的非线性回归学习问题,提出了快速等均值核心向量回归机(fast equal mean-core vector regression,FEM-CVR).首先基于间隔最大化目标学习准则,通过施加等均值约束条件,提出了等均值支持向量回归机(equal mean-support vector regression,EM-SVR).在此基础上,证明了EMSVR等价于一个中心约束最小包含球(center constrained-minimum enclosing ball,CC-MEB)问题,然后通过引入近似最小包含球理论,得到原始输入数据集的压缩集即核心集(core set),进一步提出了针对大规模数据属性效应控制的最小包含球快速非线性回归学习方法 FEM-CVR,并从理论上对相关性质进行了深入分析.实验表明:该方法能够快速处理针对大规模数据属性效应控制的非线性回归学习问题,具有较好的泛化能力,并且其时间复杂度上限与数据集大小无关,仅与最小包含球近似参数ε-有关.

英文摘要:

Attribute effect is a kind of phenomenon of data bias caused by sensitive attributes, which widely exists in real world. If not controlled, it will seriously affect the learning performance of regression model. In order to control the attribute effect in nonlinear regression model on large scale biased dataset, a novel fast equal mean-core vector regression (FEM-CVR) is proposed. First, a novel equal mean-support vector regression (EM-SVR) based on margin maximization criterion is proposed by using the constraint condition of equal mean. On this basis, the fact that the optimization problem of EM-SVR is equivalent to a center constrained-minimum enclosing ball (CC-MEB) problem is derived. Then a novel fast minimum enclosing ball based nonlinear regression learning algorithm for attribute effect control on large scale biased dataset, referred to as FEM-CVR, is further proposed by integrating the approximate minimum enclosing ball theory and reducing the original input dataset into the core set. In addition, some fundamental theoretical properties are deeply discussed. Finally, extensive experiments are conducted on synthetic and real datasets, and experimental results show that our FEM-CVR can effectively control attribute effect in nonlinear regression model on large scale biased dataset with good generalization ability, whose upper bound of the time complexity is independent of the size of the dataset, only related to the approximate parameter of the minimum enclosing ball ε.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349