位置:成果数据库 > 期刊 > 期刊详情页
一种面向非平衡数据的邻居词特征选择方法
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP316[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西北大学计算机科学与技术系,陕西西安710127, [2]西安交通大学计算机科学与技术系,陕西西安710049
  • 相关基金:国家自然科学基金项目(60473136)资助;博士点基金项目(20040698028)资助.
中文摘要:

在非平衡数据情况下,由于传统特征选择方法,如信息增益(Information Gain,IG)和相关系数(Correlation Coefficient,CC),或者不考虑负特征对分类的作用,或者不能显式地均衡正负特征比例,导致特征选择的结果下降.本文提出一种新的特征选择方法(Positive-Negative feature selection,PN),用于邻居词的选择,实现了文本中术语的自动抽取.本文提出的PN特征选择方法和CC特征选择方法相比,考虑了负特征;和IG特征选择方法相比,从特征t出现在正(负)训练文本的文本数占所有出现特征t的训练文本数比例的角度,分别显式地均衡了正特征和负特征的比例.通过计算特征t后面所跟的不同(非)领域概念个数占总(非)领域概念个数比值分别考察正、负特征t的重要性,解决了IG特征选择方法正特征偏置问题.实验结果表明,本文提出的PN特征选择方法优越于IG特征选择方法和CC特征选择.

英文摘要:

The performance of traditional feature selection algorithms, e.g. IG and CC, will be decreased because of either without considering the negative features, or without combining the positive features and negative features explicitly on imbalanced data. In this paper,a novel feature selection algorithm,named PN (Positive-Negative feature selection) ,is proposed for term extraction. Comparing with CC,PN considers the negative features,which are quite valuable in imbalanced data. Comparing with IG, PN considers the positive feature and negative feature independently and explicitly, and the values of positive and negative features are adjusted by compute the proportion of number of terms followed by feature t,which solved the problem of the much larger values of positive features. The experimental results show that the performance of PN algorithm outperforms those of CC and IG.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212