在深入分析P2P技术基础上,从P2P通信流量的最基本特征出发,研究P2P流量的统计特性,根据不同P2P流量统计特性的差异,分别为其建立不同的数值化处理策略。研究滑动窗口机制原理,将基于时间的滑动窗口机制应用于P2P流量统计特性的数值化处理中,获得基于滑动窗口机制的P2P流量统计特性量化策略。研究SVM算法原理以及SVM机制在流量检测中的应用方法,结合P2P流量的统计特性量化策略,建立基于SVM机制的P2P流量识别模型。改进SVM算法,利用对向量加权的方式实现多维SVM机制,使其能够完成P2P流量的分类,同时建立基于改进的多维SVM机制的P2P流量识别分类模型。本项目的研究对实现全面高效的P2P流量识别具有重要的理论意义和参考价值。
Peeo to Peer;Traffic Identification;Support Vector Machine;;
提出了一种多维支持向量机( MSVM) 训练方法, 建立了一种基于多维支持向量机的P2P 网络流量识别模型。该模型利用多维支持向量机作为分类器来识别P2P 流量, 各种网络流量经过数据捕获模块、特征提取模块、数据预处理模块以及MSVM 训练模块将网络流量分类成P2P 流量和Non P2P 流量, 再经过组建的MSVM 支持向量库识别出具体的P2P流量和未知P2P。 提出了基于通信网络拓扑结构的P2P流识别模型P2P-CNTIM。模型使用异常检测和P2P流的多主机特征和通信对端类型特征对P2P流进行识别,并通过这两个特征的有机结合以提高模型的识别准确率和识别效率。 为提高分类模型的稳定性,提出了基于决策树分类器集成模型用以识别流量。模型首先利用特征选择方法(FCBF)提取最优分类特征信息,按Bagging随机抽样原理形成5个子分类器,依少数服从多数原则生成决策模型。 借鉴聚类思想引入基于支持向量数据描述(SVDD)的原理,建立P2P流量识别模型。该模型首先用主成分分析法(PCA)对训练集降维,用SVDD方法寻找包含大部分样本最小超球,保留各自支持向量样本点作为识别模型;计算测试样本距各球心距离,距离近者为其所属类别。 提出了基于K均值集成和支持向量机相结合的P2P流量识别模型,以保证流量识别精度和稳定性,克服聚类识别模型中参数值难以确定、复杂性高等缺点。对少量标签样本采用随机簇中心的K均值算法训练基聚类器,按最大后验概率分配簇标签,无标签样本与其最近簇标签一致;按投票机制集成无标签样本标签信息,结合原标签样本训练支持向量机识别模型。 为解决网络样本标注的难题,实现多种网络流量环境中的主动学习,提出一种基于支持向量机后验概率的网络流量识别方法。结合支持向量机输出和Sigmoid函数拟合样本所属类别后验概率,用其中较大的2类概率信息熵值衡量样本影响分,借助支持向量机和不确定性采样策略实现主动学习过程,形成流量识别模型。原型系统的实验结果表明,上述提出的模型和方法都取得良好的效果。项目执行期间获江苏省科技进步奖一个,出版专著一部,发表论文44篇,录用5篇,其中SCI收录3篇,EI收录23篇,获得和申请专利17项,培养研究生21名,完成了项目合同的任务。