位置:成果数据库 > 期刊 > 期刊详情页
基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法
  • ISSN号:1007-791X
  • 期刊名称:《燕山大学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]燕山大学信息科学与工程学院,河北秦皇岛066004
  • 相关基金:国家自然科学基金资助项目(61071199);河北省自然科学基金资助项目(F2010001297:F2010001297);中国博士后科学基金资助项目(200902356;20080440124)
中文摘要:

大规模的训练集中通常含有许多相似样本和大量对分类器模型构造“无用”的冗余信息,利用全部样本进行训练不但会增加训练时间,还可能因为出现“过拟合”现象而导致泛化能力下降。针对这一问题,本文从最具代表性样本与最近边界样本两个角度综合考虑,提出一种基于改进加权压缩近邻与最近边界规则SVM训练样本约减选择算法。该算法考虑到有价值训练样本对SVM分类器性能的重要影响,引进减法聚类利用改进的加权压缩近邻方法选择最具代表性的样本进行训练,在此基础上利用最近边界规则在随机小样本池中选择边界样本提高分类精度。在UCI和KDD Cup 1999数据集上的实验结果表明,本文的算法能够有效地去除大训练集中的冗余信息,以较少的样本获得更好的分类性能。

英文摘要:

Large-scale training sets usually contain large amount of similar samples and redundant information, resulting in a longer training time and poor generalization ability due to over-fitting. To deal with this problem, a training sample selection algorithm for SVM based on modified weighted condensed nearest neighbor and close-to-boundary criterion is proposed. Considering the significance of valuable training sets for the performance of SVM classification,the presented method combined the most representative samples with close-to-boundary samples and utilized the modified weighted CNN rule to select the most representative samples for training with subtractive clustering approach, and then used close-to-boundary criterion to select boundary samples to improve classification accuracy in random small pools. Experimental results on UCI and KDD Cup 1999 datasets show that the proposed algorithm can eliminate the redundancy, achieve better classification performance with fewer samples.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《燕山大学学报》
  • 北大核心期刊(2014版)
  • 主管单位:河北省教育厅
  • 主办单位:燕山大学
  • 主编:张福成
  • 地址:河北省秦皇岛市燕山大学期刊社
  • 邮编:066004
  • 邮箱:xuebao@ysu.edu.cn
  • 电话:0335-8057043
  • 国际标准刊号:ISSN:1007-791X
  • 国内统一刊号:ISSN:13-1219/N
  • 邮发代号:18-73
  • 获奖情况:
  • 2009年获2004-2008年度河北省教育系统优秀期刊奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),中国中国科技核心期刊,中国北大核心期刊(2014版)
  • 被引量:3409