具有成千上万个属性的大规模超高维数据给现有分类算法带来前所未有的挑战,目前常用的算法对超高维数据分类的精度低,无法处理大数据。许多研究结果表明,随机森林分类算法处理高维数据优于其它分类算法,但用于TB级规模超高维数据的分类建模还有很大瓶颈。本项目基于前期的研究成果,进一步从理论和算法优化两个方面深入研究大数据分类的随机森林技术。研究内容包括1)从理论上证明在超高维数据条件下,属性加权子空间抽样随机森林算法的精度不低于Breiman随机森林算法的精度,进一步丰富随机森林算法的理论;2)针对数据属性繁杂问题,研究多种决策树算法同时运用的混合随机森林优化方法和动态交互式随机森林优化方法,弥补目前采用单一决策树算法的缺陷; 3)针对数据规模大问题,开发基于MapReduce编程模型的高可扩展随机森林算法和实验系统,突破TB级大数据分类的技术瓶颈。预期成果将为大数据分类提供新的理论及应用工具。
英文主题词Random Forest Algorithm;Massive Data Mining;Data Classification;Machine Learning;