位置:成果数据库 > 期刊 > 期刊详情页
基于类别加权和方差统计的特征选择方法
  • ISSN号:0254-0037
  • 期刊名称:《北京工业大学学报》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室,北京100124, [2]北京市科学技术情报研究所,北京100048
  • 相关基金:国家自然科学基金资助项目(61375059)
中文摘要:

为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.

英文摘要:

To improve the accuracy and stability of text classification on unbalanced datasets, a feature selection method based on category-weighted strategy and variance statistics strategy was proposed. First, larger weights to rare categories was assigned, these features that characterize rare categories would be strengthened,and the performance on rare categories could be improved. Then, a method of variance statistics was presented to develop feature selection. Finally,based on the two strategies, a new feature selection algorithm combined with Information Gain (IG) and χ2-statistic (CHI) was developed. Experiments on Reuters-21578 corpus and Fudan corpus (unbalanced datasets) show that new algorithm has better performances on MicroF1 and MacroF1 than those of IG, CHI and DFICF.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京工业大学学报》
  • 中国科技核心期刊
  • 主管单位:北京市教委
  • 主办单位:北京工业大学
  • 主编:卢振洋
  • 地址:北京市朝阳区平乐园100号
  • 邮编:100124
  • 邮箱:xuebao@bjut.edu.cn
  • 电话:010-67392535
  • 国际标准刊号:ISSN:0254-0037
  • 国内统一刊号:ISSN:11-2286/T
  • 邮发代号:2-86
  • 获奖情况:
  • 中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:11924