当前,计算机病毒、木马等各种恶意软件肆虐,严重危害计算机系统的安全。使用数据挖掘方法对海量软件的行为特征进行自动鉴别以有效检测恶意软件,是保障计算机安全的迫切需要。软件的动态行为须以类属型事件序列描述,本项目旨在面向该型序列的数据挖掘新模型和新算法研究,开发适用于软件行为鉴别的有效方法和工具。主要研究工作包括:(1)面向大规模软件行为事件序列挖掘的数据分析模型,该模型能全面描述软件行为事件序列中复杂的序关系,具刻画模糊长序列模式的能力和应对噪声及事件局部无序关系的鲁棒性;(2)软件行为模式(事件序列簇类模式)的形式化描述及其投影聚类和分类算法;(3)事件序列簇类模式挖掘结果的有效性评价方法,并用于预测新的软件行为类型;(4)基于事件序列挖掘的软件行为鉴别应用系统。项目致力于以创新性的事件序列数据分析模型为基础,创建独具特色的软件行为鉴别新方法,并将对序列挖掘的理论基础研究起推动和借鉴作用。
Sequence mining;Probability model;Clustering;Classification;Malware detection
事件序列(或符号序列、类属型序列)挖掘新模型和新算法研究是数据挖掘领域的前沿课题之一,其应用前景十分广泛。在计算机安全领域,基于数据挖掘和机器学习方法进行恶意软件自动鉴别现已被广泛接受,其核心是提取软件的行为特征并判断其行为的性质(恶意/良性),而软件行为须以事件序列描述。本项目以软件机器指令序列等实际应用中的序列数据为研究对象,对申请书提出的该型数据的数据挖掘模型、聚分类算法以及簇类评价和应用研究等议题进行了广泛、深入的研究,取得了若干成果。首先,在数据挖掘模型和算法研究方面,提出了面向簇类模式挖掘的事件序列新式向量空间模型、变阶马尔科夫模型、隐马尔科夫模型和离散核密度估计模型,并分别基于这些模型,定义了多种序列相似度新度量,研制了有效的聚类和分类算法;其次,提出了新型聚类有效性评价内部准则、聚类算法选择新方法,以及用于新簇类预测的概念漂移检测算法;第三,在应用研究中,提出了检测迷惑恶意代码的软件行为序列提取新方法和恶意软件分类新方法,开发了原型应用系统。项目的研究特色在于有关概率模型方法的一系列研究,提出了基于概率模型解决事件序列簇类模式挖掘及有效性评价等关键问题的新型方案;特别地,项目组首次将核密度估计方法引入到离散型数据的聚类分析和分类挖掘中,建立了一套基于核估计的复杂数据机器学习概率框架,取得了良好的效果。项目组共发表研究论文38篇,其中被SCI收录12篇,EI收录10篇,包括发表在IJCAI、AAAI和IEEE TKDE上的3篇CCF A类学术会议或期刊论文,以及ACM CIKM、Pattern Recognition等CCF B类会议或期刊上的4篇论文;另申请国家发明专利1项,出版专著1部,获得省级自然科学优秀论文奖和国际学术会议最佳论文奖各1项。达到预期研究目标。