位置:成果数据库 > 期刊 > 期刊详情页
分类中的类重叠问题及其处理方法研究
  • ISSN号:1007-9807
  • 期刊名称:管理科学学报
  • 时间:0
  • 页码:-
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京工商大学计算机与信息工程学院,北京100048, [2]北京航空航天大学经济管理学院,北京100191
  • 相关基金:国家自然科学基金资助项目(71201004;70901(102);国家自然科学基金重大研究计划资助培育项目(90924020);北京市教育委员会科技发展计划面上项目(knd01310011009);北京市大学生科学研究与创业行动计划建设项目(pxm2012_014213_000067).
  • 相关项目:基于数据固有结构的稀有事件预测分析
中文摘要:

类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明:1)多数情况下“分隔法”是表现最佳的类重叠学习算法;2)分隔法通常对基于分界面而非规则的分类器更为有效;3)分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析.

英文摘要:

Classification with class overlapping (CWCO) has long been regarded as one of the toughest yet pervasive problems in data mining and machine learning communities. When it is combined with the well- known class imbalance problem, the situation becomes even more complicated, and few works in the literature addresses this problem. To meet this critical challenge, in this paper, we make a systematic study on the CW- CO problem and its interrelationship with the class imbalance problem. Specifically, we first introduce the support vector data description (SVDD) algorithm for capturing overlapping objects, and then introduce three learning schemes and propose a separating scheme for solving the CWCO problem. Extensive experiments on various real-world data sets using five different classifiers show that the separating scheme: 1 ) performs the best among the four schemes for CWCO, 2) is more suitable for classifiers using decision boundaries, and 3 ) performs well for class imbalance data, in particular with the support vector machines (SVMs). Finally, we provide theoretic explanations for the superior performance' of the separating scheme using SVMs.

同期刊论文项目
期刊论文 22 会议论文 5 著作 1
同项目期刊论文
期刊信息
  • 《管理科学学报》
  • 北大核心期刊(2011版)
  • 主管单位:国家自然科学基金委员会
  • 主办单位:国家自然科学基金委员会管理科学部
  • 主编:郭重庆
  • 地址:天津大学25教学楼A区908室
  • 邮编:300072
  • 邮箱:jmstju@263.net
  • 电话:022-27403197
  • 国际标准刊号:ISSN:1007-9807
  • 国内统一刊号:ISSN:12-1275/G3
  • 邮发代号:6-89
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:22041