语境离群点和具体的语境环境相关,而针对语境离群点的检测比一般的离群点检测更重要。本项目将研究语境离群点检测模型,着重针对分布、多模态、实时等海量数据特点,设计基于MapReduce云计算框架的并行语境离群点检测算法、基于多模态数据融合的语境离群点检测方法以及基于不同粒度的时序数据语境离群点检测方法,并将其应用在电信业务数据处理和视频图像分析中。项目将结合粗糙集、粒计算、PSO、进化计算等方法,对分布式语境离群点的数据表示、多模态数据的融合、并行数据挖掘算法设计和云计算环境下的数据集成等关键问题进行研究。项目的研究范围涉及海量数据挖掘、机器学习、粒计算等多个领域,具有广泛的实际应用价值,其在视频图像分析中的应用更具有重要的社会价值。
anomaly detection;decision-theoretic rough set;binary particle optimization;multimodel;video behavior analysis
离群点检测,也称为异常检测,其目的在于找出隐含在大量数据中相对稀疏而孤立的异常数据模式。大多数情况下离群数据如果脱离了具体的环境就没有意义,所以针对语境离群点的检测就比一般的离群点检测更重要。目前语境离群点检测中比较直接的做法是先定义出语境,然后将这些语境作为先验知识应用到已有的离群点检测方法中。但现实的困难是语境属性值较难定义, 尤其在大数据时代,面对的数据呈现出分布、异构、海量等特性,各类应用更关注高维数据处理和计算能力的提高。本项目针对海量数据语境离群点检测的关键问题,在数据预处理、多模态数据融合、并行数据挖掘算法以及异常检测这四方面展开了研究工作。在数据预处理方面,研究了决策粗糙集模型中基于最小化决策代价的优化问题,提出了基于启发式方法和粒子群优化方法的最小化决策代价的属性约简算法;研究了多目标优化问题以及粒子更新过程,提出了基于领域知识和粒子群优化算法的特征选择方法。在多模态数据融合方面,研究了新浪微博数据中文本和图像的数据特点,提出了一种基于并行融合的多模态分析方法,通过进一步波动分析,可以实现对异常或突发事件的检测;基于社交网络的多语境建模方法,通过潜在语义分析(LSA)将文本特征和图像特征分别映射到低维度语义空间,提出了一种基于融合语义特征的分类方法。在并行数据挖掘算法方面,基于Hadoop平台,从随机梯度下降类算法的并行化理论出发,提出了并行化SVM求解方法P- Pegasos;研究并行化粗糙集属性约简方法,提出了一种基于典型相关性分析(CCA)的属性融合方法,并通过属性重要度的计算,在MapReduce分布式编程框架下,实现了一种并行化粗糙集约简。在语境离群点检测应用方面,研究了视频数据中的时空特性,融合空间信息,提出改进的基于LDA的码书生成方法, 通过检测原子行为实现了视频异常检测;研究了拥挤场景的视频特征,提出了一种基于遗传编程(GP)的拥挤场景视频异常检测方法。本项目从海量数据的特点出发,着重针对数据处理和计算能力两方面,研究了基于MapReduce云计算框架的并行数据挖掘方法、基于多模态数据融合方法以及基于决策粗糙集和进化计算的属性约简方法,并应用在视频异常检测中。项目的研究具有广泛的应用价值,其在视频行为分析中的应用更具有重要的社会价值。