基于特征库的安全防护系统(如防火墙、IDS/IPS等)是对抗网络攻击的主要手段,特征质量和数量决定这类系统的检测性能,攻击特征自动提取技术能快速提取攻击特征,成为近年来研究热点。现有特征自动提取方法一般通过统计方式处理攻击样本数据集,产生由单个或多个字符片段表达的特征,损失了片段之间的语义信息,特征表达缺乏准确性,且容噪性低,难以对抗现实网络中的多态攻击和新型攻击。本项目借鉴生物信息学中的序列比对方法,来识别攻击样本数据的保守片段及片段之间的语义信息,快速高效地自动提取出攻击特征。拟结合网络攻击的通信特征,研究攻击数据集的聚类技术;分析攻击特征的语义性问题,研究高语义性序列比对算法;在此基础上,提出基于高语义序列比对算法的特征自动提取方法,提高容噪性,研究攻击的语义性特征转化方法与评价模型。项目采用仿真和实验相结合的方法对提出的模型、算法和方法进行评估。
network attack;attack signature;automatic signature generation;sequence alignment;attack dataset clustering
完成了项目计划书要求的研究内容和技术指标,突破了一些关键技术,取得了预期研究成果和若干重要研究进展。 利用序列比对能快速有效的识别保守片段及保守片段之间的语义特性的优势,提出基于高语义性序列比对算法且具有高容噪性的特征自动提取方法和语义性特征转化方法。实时攻击数据集含有缺失属性和大量非攻击样本,呈现属性分布不完全和类分布偏斜的特点,使得聚类准确率较低,提出了一种面向不完全攻击数据集的两阶段聚类算法,利用2-类支持向量机分离数据集中的非攻击样本,使类分布均衡,应用于最近邻间隔模糊C均值算法实现聚类,有效的提高了聚类准确率。通过分析攻击特征的语义性问题,研究并提出一种新的高语义性序列比对算法。从3维图形中提取2维序列信息特征的映射平面信息,提出了一个二维的距离计算方法,分析比较9个物种的线粒体NADH脱氢酶(ND5)两两之间的相似性,该方法既能体现生物的进化关系,又能够更好地适应蛋白质序列的相似性分析。提出了一种基于BLOSUM62矩阵的特征提取方法。该方法为每一种氨基酸提供了一个映射坐标,利用了一个蛋白质对位排列表BLOSUM62计分矩阵,从中提取各氨基酸的计分信息作为氨基酸映射坐标Y值。该矩阵体现了20种常见氨基酸与其他氨基酸配对的统计得分信息,并支持亲缘关系较远的蛋白质序列相似性比对分析,具有高语义性。从生物信息学视角出发,在对生物序列比对理论研究的基础上,结合多态蠕虫自身的特点,提出了一种两阶段多序列比对算法TsMSA,能有效提高提取特征的质量,降低误报率。对于随机噪声数据,TsMSA算法具有很好的容噪性能。本项目所提出的基于高语义序列比对的网络攻击特征自动提取方法,首先调整数据去噪并进行数据聚类,接着通过高语义序列比对方法,使序列比对的特征片段趋向更合理,最后将比对结果所代表的攻击特征转化为IDS规则。该方法能快速高效地自动提取出攻击特征,攻击特征生成质量高。 在该项目资助下,发表或录用论文22篇,其中12篇SCI检索,19篇EI检索(源);申请了发明专利4项,其中授权发明专利2项,软件著作权登记2项。项目组有2人出国合作交流,邀请了美国密歇根州立大学Alex X Liu副教授、美国VMware公司陈飞博士等学者到湖南大学进行学术交流。有3位项目组成员通过了博士学位论文答辩,有6位同学通过了硕士研究生答辩。