面向海量超高维数据的随机森林算法理论及优化方法研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向海量超高维数据的随机森林算法理论及优化方法研究

项目名称：面向海量超高维数据的随机森林算法理论及优化方法研究
项目类别：青年科学基金项目
批准号：61203294
申请代码：F030504
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：李俊杰
依托单位：深圳大学
批准年度：2012

中文摘要：

具有成千上万个属性的大规模超高维数据给现有分类算法带来前所未有的挑战，目前常用的算法对超高维数据分类的精度低，无法处理大数据。许多研究结果表明，随机森林分类算法处理高维数据优于其它分类算法，但用于TB级规模超高维数据的分类建模还有很大瓶颈。本项目基于前期的研究成果，进一步从理论和算法优化两个方面深入研究大数据分类的随机森林技术。研究内容包括1）从理论上证明在超高维数据条件下，属性加权子空间抽样随机森林算法的精度不低于Breiman随机森林算法的精度，进一步丰富随机森林算法的理论；2）针对数据属性繁杂问题，研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法，弥补目前采用单一决策树算法的缺陷； 3）针对数据规模大问题，开发基于MapReduce编程模型的高可扩展随机森林算法和实验系统，突破TB级大数据分类的技术瓶颈。预期成果将为大数据分类提供新的理论及应用工具。

中文主题词：随机森林算法；海量数据挖掘；数据分类；机器学习；

结论摘要：

英文主题词Random Forest Algorithm；Massive Data Mining；Data Classification；Machine Learning；

成果综合统计