恶意代码是当前最具破坏性和危害性的网络安全威胁之一。恶意代码的同源和演化特性描述了恶意代码从何而来、如何发展变化以及相互之间的关系,恶意代码同源和演化特性自动分析是检测和防范恶意代码的重要基础,也是计算机犯罪取证的重要手段。面对互联网环境中恶意代码的多样性、海量的恶意代码样本数量以及变形和多态等恶意代码自保护技术带来的巨大挑战,现有对恶意代码同源分析技术的初步研究远远不能满足实际的需要。本项目提出借鉴和利用生物信息学中同源与进化分析相关的算法与实现技术,基于多源信息融合开展恶意代码同源和演化特性自动分析技术的深入研究。项目将突破恶意代码多源信息的表示和融合分析、基于序列比对的同源分析、基于大规模网络比对的同源分析、面向海量样本的恶意代码演化树动态更新等关键技术,为深度了解和防范恶意代码以及计算机犯罪取证提供有效的技术手段和开源工具。
Malware;Virus;Homologency;Analysis;Signature generation
恶意代码分析是检测和防范恶意代码的重要基础。在反病毒领域的实际应用中,除了分析恶意代码的各种外部表现,还关心恶意代码在同源演化方面的内在特性,包括恶意代码从何而来、如何发展变化以及相互之间的关系等。目前仅有少量专门针对恶意代码同源与演化分析技术的研究。本项目提出借鉴和利用生物信息学中同源与进化分析相关的算法与实现技术,围绕恶意代码同源和演化特性自动分析的若干关键技术开展了深入研究,主要包括恶意代码行为分析和挖掘;基于恶意代码序列信息的同源分析;基于恶意代码图信息的同源分析;恶意代码特征自动提取;网络恶意代码协同识别与特征提取技术等。首先,在恶意代码行为分析和挖掘技术方面,针对特征值会被恶意代码编写者故意篡改的问题,提出了基于缺失ELM 的对抗型加壳恶意代码检测算法;提出了两种方法分别解决恶意代码抵抗模拟分析环境和调试执行环境的问题;针对片面的动态分析结果使得理解和刻画目标样本的恶意行为不精确,提出了代码结构与执行行为相结合的恶意代码执行行为挖掘方法。其次,在基于恶意代码序列信息的同源分析方面,研究了基于IDA的恶意代码静态信息提取技术,设计了恶意代码静态信息的规范化描述,研究了基于编码转化的生物学同源分析算法和工具的利用技术,设计实现了基于系统函数调用序列的同源分析方法。第三,在基于恶意代码图信息的同源分析方面,提出了一种恶意代码函数调用图相似性度量方法SDMFG,基于 SDMFG 度量方法设计了一种恶意代码函数调用图相似性比对算法,设计实现了基于恶意代码函数调用图的恶意代码系统发生树构建方法。第四,在恶意代码特征自动提取技术方面,提出了面向真实蠕虫流量的正则表达式特征自动提取算法,提出了攻击特征树的概念以及增量式攻击特征树生成方法。最后,在网络恶意代码协同识别与特征提取技术方面,提出了一种基于资源操作约束的恶意代码行为特征描述机制,提出了一种全局融合的恶意代码行为特征协同提取方法,提出了一个主机与网络合作的、可抵抗混淆技术的、可扩展的、能够识别各种复杂恶意代码组的协同识别系统。本课题上述研究可以为未来恶意代码自动同源和演化分析的设计与实现奠定坚实的理论和技术基础,具有重要的理论意义和应用价值。