自1993年首次出现以"发财之道"为代表的垃圾邮件以来,垃圾邮件就以每年80%的速度快速增长。从利用著名的FloodGate垃圾邮件群发工具群发垃圾邮件,到利用邮件服务器的漏洞OpenRelay转发垃圾邮件,再到现在利用社会网络软件发送垃圾邮件,垃圾邮件发送者(Spammer)的手段越来越多样化,技术越来越复杂,研究更优化和先进的垃圾邮件反制技术已经成为互联网信息安全领域里的一项刻不容缓的任务。由于垃圾邮件存在诸多的不确定性,如内容特征的不确定性,行为特征的不确定性,传播方式的不确定性等等,这些不确定性充分代表了垃圾邮件具有的模糊性,不完备性以及不稳定性,成为了解决垃圾邮件问题最大的技术桎梏。本项目将重点研究和发现这些不确定性特征背后的某些确定性规律。通过深入研究垃圾邮件的不确定特征机理将为提升现有垃圾邮件过滤算法的性能提供更高层次的理论依据。
Spam;Uncertainty;Extraction of behavior feature;Community detection;Link prediction
自1993年首次出现以“发财之道”为代表的垃圾邮件以来,垃圾邮件就以每年80%的速度快速增长。从利用著名的FloodGate垃圾邮件群发工具群发垃圾邮件,到利用邮件服务器的漏洞OpenRelay转发垃圾邮件,再到现在利用P2P僵尸网络匿名发送垃圾邮件,垃圾邮件发送者(Spammer)的手段越来越多样化,技术越来越复杂,研究更优化和先进的垃圾邮件反制技术已经成为互联网信息安全领域里的一项刻不容缓的任务。我们研究发现垃圾邮件存在诸多主观和客观的不确定性包括如内容格式的不确定性,发送方式的不确定性,发送对象的不确定性等等,这些不确定性是解决垃圾邮件问题最大的技术桎梏。本项目将重点研究和发现这些不确定性特征背后的某些确定性规律。如何发现和利用这些规律是提高垃圾邮件过滤性能的关键,也是本项研究的主要难点,我们主要从影响力节点行为特征识别,社区结构发现,链路预测等角度深入研究垃圾邮件的不确定特征机理,为提升现有垃圾邮件过滤算法的性能提供更高层次的理论依据。