传统的特征提取方法过程繁琐和复杂、且主要依赖于专家手工提取导致其更新速度慢和质量难以保证,因此无法满足流量识别技术发展的需求。为此,业界开始研究自动化特征提取技术,该技术不需要人工干预便能够自动地发现协议的特征。本课题将着重研究自动化特征提取技术研究中的关键性问题根据自动特征提取技术的需求,研究纯净数据样本的获取技术,以去除样本噪声;研究自动的特征提取技术,并引入可能的并行机制;提出冗余信息去除技术,并研究其自动化机制;从流量特征和字段特征入手,研究伪装或加密后的特征提取技术;定义算法的性能评价指标,作为本课题所提算法的衡量指标。研究成果对实现智能化流量识别引擎有重要的意义。
flow identification;signature extraction;classifier;automatic;
网络流量的飞速增长和应用种类的多样化,使得网络流量中应用种类的感知能力成为现代网络管理的重要组成部分,其对提高网络服务质量、加强用户感知、有效规划网络建设有较为明显的作用。为此,本课题着重研究了网络流量特征自动提取技术及其应用中的关键问题。首先,设计和实现了支持分布式流量采集和分类的工具Flowsing,可为网络流量特征的提取提供可靠、有效的基准集。其次,从不同的角度提出了流量特征提取算法,具体包括基于现有生物信息学的研究成果,提出了采取矩阵回溯双序列比对的算法Smith-waterman,以获取网络流量序列的对比特征;针对双序列比对算法在时间和空间效率上的固有缺陷,提出固定比特对比算法以提高特征提取的有效性;同时,为提取流量的整体特征,引入主成分分析法(PCA)方法,将网络流量特征对应于网络整体信息中固定不变的主成分,将信息中变化的参量作为次要成分滤掉,从而获得流量的整体特征。再次,针对特征提取算法的有效性和运行效率进行了研究,提出了利用GPU并行计算加速特征提取算法,可提高序列比对提取特征的运行效率。然后,提出了基于神经网络技术的流量特征提取方式来解决流量加密的问题,并详细分析了每种特征的效用,使得可以使用较少的统计流量特征来达到更为高效的流量分类,同时通过利用PCA算法的去噪特性,提高了采用数据挖掘聚类算法提取流量特征方式的有效性。最后,实现和部署了网络流量特征提取、评估、分析、存储、优化平台Flowanteat。上述关键问题的解决对推动流量特征自动提取方法的研究有着重要的意义。