传统集中式异常检测的局限性迫使人们研究分布式检测技术,它成为了近几年学术界研究的一个热点问题。但分布式异常检测中的许多关键问题困扰学术界多年,如大规模数据搜集而不暴露用户的敏感信息、共享模型交换问题等。有鉴于此,本项目提出一种基于隐私保护的分布式数据流异常检测方法,主要研究以下几个关键技术①基于隐私保护的本地异常检测模型建立技术;②本地异常检测模型标准化技术;③共享模型交换技术;④全局异常检测技术;⑤数据流中概念漂移技术。具体地,在本项目中,拟采用集成学习技术能够大大提高分布式异常检测的准确性;利用神经网络的黑匣特性,能保护各数据持有者的隐私性;同时,拟采用双树递归快速核密度估计,无需对数据分布进行先验假设,并可估计任意形状的密度函数,非常适合对数据流进行处理。本项研究,对构建新一代分异布式异常检测模型等具有十分重要的理论意义和实际应用价值。
Anomaly detection;privacy preserving;distribution;ensemble learning;
传统集中式异常检测的局限性迫使人们研究分布式检测技术,它成为了近几年学术界研究的一个热点问题。但分布式异常检测中的许多关键问题困扰学术界多年,如大规模数据搜集而不暴露用户的敏感信息、共享模型交换问题等。有鉴于此,本项目研究了基于隐私保护的分布式数据流异常检测方法,主要包括以下几点①提出一套分布式异常检测框架,分别针对有监督学习和无监督学习的异常检测方法,以及异常检测的数据流和高维特性进行了研究;②研究了分布式异常检测中的隐私保护问题,分别针对分类算法、关联规则算法、属性矩阵以及个性化需求提出了一系列隐私保护算法;③研究了异常检测模型中的集成学习问题,提出了选择性集成和强分类器边界约束的集成算法;④将异常检测模型应用于垃圾信息流的异常流量检测上,较大地提高了垃圾信息检测的速度;将异常检测模型应用于小众用户/应用的“异常”行为模式上,有效地提高了小众推荐的效果。