大规模垃圾邮件过滤中的集成化SVM增量学习机制研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

大规模垃圾邮件过滤中的集成化SVM增量学习机制研究

项目名称：大规模垃圾邮件过滤中的集成化SVM增量学习机制研究
项目类别：面上项目
批准号：60970081
申请代码：F020509
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：徐从富
负责人职称：副教授
依托单位：浙江大学
批准年度：2009

中文摘要：

以大规模垃圾邮件过滤为研究背景，探索并提出一种新的兼顾识别率和效率的集成化SVM增量学习机制。主要研究内容包括（1）利用目标跟踪原理与方法对SVM模型的支持向量和非支持向量的演变机制和规律进行跟踪和预测，并借鉴Core Vector Machine思想，尝试解决SVM增量算法中的效率问题；（2）探索AUC-maximization SVM的增量模型及算法，拟解决代价不对等问题，并进一步提高其效率；（3）引入Active Learning的思想，研究适应用户反馈延迟的SVM增量学习模型及算法。研究目标是，得到能够解决大规模垃圾邮件过滤的，具有高效、代价敏感和延迟适应等特点的增量学习机制、模型及算法。本研究可望对统计学习方法的基础理论、模型和算法有所促进，且为大规模垃圾邮件过滤、手机垃圾短信过滤、网络不良信息过滤等应用提供理论和技术支持。

中文主题词：垃圾邮件过滤；SVM增量算法；组合多分类器；在线SVM；垃圾图片过滤

英文摘要：

Spam filtering；SVM incremental algorithm；Combining multiple classifiers；Online SVMs；Image spam filtering

英文主题词： Spam filtering；SVM incremental algorithm；Combining multiple classifiers；Online SVMs；Image spam filtering

结论摘要：

本项目以大规模垃圾邮件过滤为研究背景，探索并提出了兼顾识别率和效率的集成化SVM增量学习机制。主要研究内容包括（1）组合多分类器的研究（2）稀疏无监督降维算法的研究（3）集成分类器在大规模垃圾邮件过滤中的应用（4）Online SVMs在大规模垃圾邮件过滤中的应用（5）基于编码的预处理方法在垃圾图片过滤及中文文本分类中的应用（6）在分类器的决策区域内训练分类器的研究（7）用知识层次研究分类器的研究（8）马尔科夫逻辑网的理论研究（9）基于文本和图片特征的融合模型在垃圾图片过滤中的应用。本项目对统计学习方法的基础理论、模型和算法有所促进，而且为大规模垃圾邮件过滤、手机垃圾短信过滤、网络不良信息过滤等应用提供理论和技术支持。

成果综合统计