位置:成果数据库 > 期刊 > 期刊详情页
结合朴素贝叶斯和欧氏距离的二类非均衡数据集成方法
  • ISSN号:1003-0530
  • 期刊名称:《信号处理》
  • 时间:0
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]南京邮电大学信号处理与传输研究院,江苏南京210003, [2]东南大学移动通信国家重点实验室,江苏南京210096
  • 相关基金:国家自然科学基金(61271240,61671253);江苏省高校自然科学基金重大项目(16KJA510004);江苏省优势学科发展计划;东南大学移动通信国家重点实验室开放研究基金(2016D01);南京邮电大学宽带无线通信与传感网技术教育部重点实验室开放研究基金(NYKL201509)
中文摘要:

随着数据挖掘技术的发展,传统集成方法中的集成规则,例如Max rule,Min rule,Product rule,以及Sum rule,已经不能满足现实中对于二类非均衡数据分类正确率的需要。因此本文提出了基于朴素贝叶斯和欧氏距离的二类非均衡数据集成方法。该集成方法是以朴素贝叶斯为基分类器,其集成规则通过引入测试数据与训练数据之间的欧式距离以及训练数据中多数类与少数类之间的关系,在空间距离上加强了最终的分类结果与原始训练数据之间的关联性。实验结果表明,该集成方法在处理二类非均衡数据时,Area Under roc Curve(AUC)值与现存的集成方法相比显著提高,从而具有更好的分类性能。因此,本文方法在处理二类非均衡数据时具有明显优势。

英文摘要:

With the development of Data Mining, ensemble methods have been widely applied to classify binary imbalanced data. Traditional ensemble rules, such as Max rule, Min rule, Product rule, and Sum rule have been proved could not meet the needs of classification of binary imbalaneed data. So this paper proposed an ensemble rule which take Naive Bayes as base classifier and the Euclidean distance between the new data and train data and relations of majority classes and mi- nority classes are taken into account in the new ensemble rule. The reason is that it can strengthen the relationship between the classify results and raw data. Simulation results are provided to confirm that the proposed method has better performance than existing ensemble methods while dealing with binary imbalanced data in the performance of Area Under roc Curve (AUC). So, the proposed method in this paper has a good performance while dealing with binary imbalanced data.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信号处理》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:谢维信
  • 地址:北京鼓楼西大街41号
  • 邮编:100009
  • 邮箱:xhclfh@sohu.com
  • 电话:010-64010656
  • 国际标准刊号:ISSN:1003-0530
  • 国内统一刊号:ISSN:11-2406/TN
  • 邮发代号:80-531
  • 获奖情况:
  • 国家一级科技期刊
  • 国内外数据库收录:
  • 美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:10219