位置:成果数据库 > 期刊 > 期刊详情页
面向软件缺陷预测的聚类欠采样集成方法
  • ISSN号:1000-7024
  • 期刊名称:计算机工程与设计
  • 时间:0
  • 页码:-
  • 分类:TP311.5[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南通大学电子信息学院,江苏南通226019, [2]南通大学计算机科学与技术学院,江苏南通226019
  • 相关基金:国家自然科学基金项目(61202006;61272424); 计算机软件新技术国家重点实验室开放课题基金项目(KFKT2012B29); 江苏省自然科学基金项目(BK2010277); 江苏省科技创新基金项目(BC2013167); 江苏省高校自然科学基金项目(12KJB520014)
  • 相关项目:软件测试和调试过程中的测试用例演化技术研究
中文摘要:

为缓解类不平衡问题对预测模型性能的影响,提出一种基于聚类的欠采样集成方法 CBUE(cluster-based undersampling ensemble method)。对多数类进行聚类分析,根据聚类的结果分布(即每个簇的大小比例)有放回地选择N个多数类的子集,N个子集分别和所有的少数类实例组成N个新的训练集;根据N个训练集训练出N个分类器,按照少数服从多数的原则生成一个新的集成分类器对新的数据进行预测。CBUE以NASA数据集作为评测对象,以balance、G-mean和AUC为评测指标,实验结果表明,该方法在大部分情况下要优于5种经典的基准方法 (ROS、RUS、SMOTE、RF和NB)。

英文摘要:

To alleviate the impact of class imbalanced problem on the performance of prediction model,a cluster-based under-sampling ensemble method (CBUE)was proposed.The majority was clustered.N subsets of the majority were selected accor-ding to the distribution of clustering result which reflected the ratio of every cluster.N subsets and all minority instances were united to compose new N training sets respectively.N classifiers were trained according to N training sets and a new ensemble classifier was constructed which predicted new data based on majority rule.NASA datasets were used as evaluation datasets,and the balance,G-mean and AUC were taken as evaluation indicators.Experimental results show that the method is superior to five classical methods (ROS,RUS,SMOTE,RF and NB)in most cases.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616