位置:成果数据库 > 期刊 > 期刊详情页
基于t检验和弹性网的数据分类特征选择方法
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武汉大学国际软件学院,武汉430079
  • 相关基金:国家自然科学基金重点项目(41231171)资助.
中文摘要:

数据分类是数据挖掘领域中一类重要的问题,然而,当前的数据挖掘工作面临着大样本量、高维度数据的挑战.从数据特征中选择出有效的数据特征子集,能够使数据降维,是进行进一步数据分类的基础.目前比较流行的特征选择方法对高维数据不太适应,精度也不高.因此,提出一种基于t检验和弹性网的特征选择方法,其基本思想是通过t检验得到特征在不同类之间的差异程度,并利用弹性网回归模型对差异程度较大的特征进行分析,通过回归系数压缩和误分类率得到最终的特征子集.本文通过实验证实了此方法在准确性、稳定性及时间代价上都具有良好的效果.

英文摘要:

Data classification is an important issue in data mining domain. However,data mining is currently faced with challenges of large-sized and high-dimensional data. It is the basis of further data classification that effective feature subset being selected and thus data dimension being reduced. Currently popular feature selection methods are not accustomed to high-dimensional data and its accuracy is not good enough. In the present paper,a method based on t-test and elastic net is proposed,which is specially for data classification problems. In this method, variances of features between classes is calculated by t-tests. Then the features which have bigger variances are analyzed through the elastic net regression model. Finally, the feature subset is selected by shrinkage of regression coefficients and misclassification error rate. Experiments show that the method has achieved good results in aspects of accuracy, stability and time costs.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212