位置:成果数据库 > 期刊 > 期刊详情页
基于一趟聚类的不平衡数据下抽样算法
  • ISSN号:1000-1220
  • 期刊名称:小型微型计算机系统
  • 时间:2012.2.2
  • 页码:232-236
  • 分类:TP309[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]广东外语外贸大学信息学院,广州510006, [2]广东外语外贸大学国际工商管理学院,广州510006
  • 相关基金:国家自然科学基金项目(61070061)资助;广东省自然科学基金项目(9151026005000002)资助;广东省高层次人才项目.
  • 相关项目:面向不平衡数据的学习算法及应用研究
中文摘要:

抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.

英文摘要:

Sampling is a widely used method in dealing imbalanced dataset. The main idea of sampling is changing the distribution of various classes in a dataset, decreasing the difference in the distribution between majority class and minority class. This paper propo- ses a under-sampling approaches based on one-pass clustering for imbalance problem. According to the features of each clusters and the degree of data inclination, a sample Ratio is made for each clusters. Hence each cluster can be sampled with its sample ratio. A Cluster with greater density will be sampled into comparatively less selection. In contrast, a Cluster with smaller density will be more or entirely sampled. With decreasing the amount of the whole dataset, the amount of minority class can be ensured. The experimental result show that our sample approaches can make the sample form the imbalanced data more typical and improve the performance in classification and clustering.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212