以大规模垃圾邮件过滤为研究背景,探索并提出一种新的兼顾识别率和效率的集成化SVM增量学习机制。主要研究内容包括(1)利用目标跟踪原理与方法对SVM模型的支持向量和非支持向量的演变机制和规律进行跟踪和预测,并借鉴Core Vector Machine思想,尝试解决SVM增量算法中的效率问题;(2)探索AUC-maximization SVM的增量模型及算法,拟解决代价不对等问题,并进一步提高其效率;(3)引入Active Learning的思想,研究适应用户反馈延迟的SVM增量学习模型及算法。研究目标是,得到能够解决大规模垃圾邮件过滤的,具有高效、代价敏感和延迟适应等特点的增量学习机制、模型及算法。本研究可望对统计学习方法的基础理论、模型和算法有所促进,且为大规模垃圾邮件过滤、手机垃圾短信过滤、网络不良信息过滤等应用提供理论和技术支持。
Spam filtering;SVM incremental algorithm;Combining multiple classifiers;Online SVMs;Image spam filtering
本项目以大规模垃圾邮件过滤为研究背景,探索并提出了兼顾识别率和效率的集成化SVM增量学习机制。主要研究内容包括(1)组合多分类器的研究(2)稀疏无监督降维算法的研究(3)集成分类器在大规模垃圾邮件过滤中的应用(4)Online SVMs在大规模垃圾邮件过滤中的应用(5)基于编码的预处理方法在垃圾图片过滤及中文文本分类中的应用(6)在分类器的决策区域内训练分类器的研究(7)用知识层次研究分类器的研究(8)马尔科夫逻辑网的理论研究(9)基于文本和图片特征的融合模型在垃圾图片过滤中的应用。本项目对统计学习方法的基础理论、模型和算法有所促进,而且为大规模垃圾邮件过滤、手机垃圾短信过滤、网络不良信息过滤等应用提供理论和技术支持。