位置:成果数据库 > 期刊 > 期刊详情页
Logistic模型对非平衡数据的敏感性:测度、修正与比较
  • ISSN号:1002-4565
  • 期刊名称:《统计研究》
  • 时间:0
  • 分类:O212[理学—概率论与数理统计;理学—数学]
  • 作者机构:东北财经大学博士后科研流动站, 东北财经大学统计学院
  • 相关基金:本文获国家社会科学基金重大项目“大数据与统计学理论的发展研究”(13&ZD148)、国家社会科学基金青年项目“大数据背景下我国失业率水平的多维测度与动态修正研究”(15CRK017)、中国博士后科学基金和东北财经大学博士后科研项目“统计学视角下的大数据应用问题研究:数据导向”(2014M561239、BSH201510)资助.
中文摘要:

本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性。研究表明:①数据非平衡程度越高,logistic回归对稀有类的识别能力越差。②相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优。③AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨。

英文摘要:

Based on the UCI database, this paper analyzes the sensitivity of the logistic model to different degree of unbalanced data. The research shows that: (1) the higher the degree of unbalanced data is, the poorer ability the logistic regression to identify the rare classes. (2) Compared to other revised methods, OSS method is not significant and stable; Simple sampling has better performance relative to complex sampling. (3) The AUC is not suitable for model selection under the condition of unbalanced data. Because it cannot distinguish the four corrected methods effectively nor tell the differences before and after correction.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《统计研究》
  • 北大核心期刊(2011版)
  • 主管单位:国家统计局
  • 主办单位:中国统计学会
  • 主编:万东华
  • 地址:北京西城区月坛南街75号
  • 邮编:100826
  • 邮箱:tjyj@gj.stats.cn
  • 电话:010-68783985
  • 国际标准刊号:ISSN:1002-4565
  • 国内统一刊号:ISSN:11-1302/C
  • 邮发代号:82-14
  • 获奖情况:
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国社科基金资助期刊,中国国家哲学社会科学学术期刊数据库,中国北大核心期刊(2000版)
  • 被引量:32248