位置:成果数据库 > 期刊 > 期刊详情页
非线性噪声数据集上基于随机森林的空缺值填补算法
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP3[自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]太原师范学院计算机系,山西太原030012
  • 相关基金:国家自然科学基金项目(51174275); 山西省高等学校科技项目(20121021); 山西省社科联2012重点课题研究项目(SSKLZDKT2012055); 山西省2011年科学技术发展计划项目(20110321024-02)
中文摘要:

针对目前空缺值填补方法在非线性噪声数据集上填补效果不理想的问题,分标称属性和非标称属性两种情况提出一种基于随机森林的空缺值填补算法。该算法首先将空缺值看作决策属性,将其他属性值作为特征属性,然后利用随机森林算法进行空缺值的预测。由于随机森林算法具有良好的非线性数据拟合和抗噪声性能,因此该算法可以有效地提高空缺值的填补准确率。在UCI标准数据集和ORL人脸识别数据集上的对比实验充分说明了该算法较以往的填补方法更为有效。

英文摘要:

As present missing values filling algorithms are not satisfactory at filling for non-linear noisy datasets, the paper proposes a miss- ing values filling algorithm based on random forest for both nominal attributes and non-nominal attributes. The algorithm firstly regards the missing value as decision attribute and other attribution values as feature attributes; then by random forest algorithm it executes prediction for the missing value. Since the random forest'algorithm is good at non-linear data fitting and anti-noise property, the proposed algorithm can effec- tively improve the filling rate of the missing value. Comparison experiments on UCI standard datasets and ORL face recognition datasets fully explains that the proposed algorithm is more effective than previous filling algorithms.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463