课题在分析了飞行数据特点的基础上,将其划分为连续型和离散型的飞行数据。研究工作中将连续型飞行数据看作是实数值的多变量的时间序列,研究了多变量的时间序列的相似性度量。为了克服在原始数据序列上进行相似性度量效率低下,易受噪声影响的缺点,研究了基于特征变换的方法,提出了有界坐标系统BCS度量方法。BCS度量具有降维效果显著,减小计算量,抑制噪声干扰和能够处理不等长时间序列的优点。在基于距离的异常检测算法的基础上,改进了传统的循环嵌套算法,提出了首先对数据集进行聚类,然后在数据上应用剪枝规则提高效率的两阶段的多变量时间序列异常检测算法,在大数据集上实现了接近线性的时间效率。离散型的飞行数据反映了机组对开关的操作过程,研究了将多参数的二元值序列转换为符号序列的方法和符号序列的相似性度量,提出了基于最长公共子序列的GLCS核,其优点在于使得支持向量机算法能够直接处理符号序列,而且避免了将符号序列转换为向量时造成的信息丢失。研究了将改进的单类支持向量机SVDD和GLCS核结合在一起的符号序列异常检测算法,在提高检测率的同时能保持较低的误报率。
英文主题词flight data; anomaly detection; multivariate time series; symbolic sequence