东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

邮件过滤中特征选择方法的性能评价与分析

ISSN号：1001-3695
期刊名称：《计算机应用研究》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]山东师范大学信息科学与工程学院,济南250014, [2]山东师范大学山东省分布式计算机软件新技术重点实验室,济南250014
相关基金：国家自然科学基金资助项目（60873247）; 山东省高新自主创新专项工程资助项目（2008ZZ28）; 山东省自然科学基金重点资助项目（ZR2009GZ007）

作者：赵静[1,2], 刘培玉[1,2], 许明英[1,2]

关键词：邮件过滤, 特征选择, 朴素贝叶斯, 支持向量机, e-mail filtering, feature selection, Nave Bayes, SVM

中文摘要：

基于内容的邮件过滤本质是二值文本分类问题。特征选择在分类之前约简特征空间以减少分类器在计算和存储上的开销,同时过滤部分噪声以提高分类的准确性,是影响邮件过滤准确性和时效性的重要因素。但各特征选择算法在同一评价环境中性能不同,且对分类器和数据集分布特征具有依赖性。结合邮件过滤自身特点,从分类器适应性、数据集依赖性及时间复杂度三个方面评价与分析各特征选择算法在邮件过滤领域的性能。实验结果表明,优势率和文档频数用于邮件过滤时垃圾邮件识别的准确率较高,运算时间较少。

英文摘要：

The nature of content-based e-mail filtering is a binary text classification problem.Feature selection methods reduced the feature dimension before classifying e-mails in order to reduce the cost of computing and storage,while filtering some noise features to improve the classification accuracy.Feature selection was an important factor which decided the accuracy and timeliness of e-mail filtering.However,every feature selection algorithm had different performance in the same environment,and was affected by classifiers and data distribution.Combining characteristics of e-mail filtering,this paper evaluated and analized the following aspects of feature selection methods which used to filter e-mails：classifier adaptability,data set dependence,time complexity.Experimental results show that odds ratio and document frequency have higher accuracy and less computing time when they are used to filter emails.

同期刊论文项目

基于模糊遗传算法的网络信息特征分析与过滤算法研究

期刊论文 97 会议论文 20 专利 2

同项目期刊论文

基于Q学习的适应性进化规划算法

Adaptive Evolutionary Programming based on Reinforcement Learning

基于改进PrefixSpan的序列模式挖掘算法

一种结合反馈信息的贝叶斯分类增量学习方法

结合信息熵的多Agent网络安全审计模型

基于AdaBoost的最小风险贝叶斯的垃圾邮件过滤算法

基于Bagging的聚类集成方法

Research on Information Retrieval System Based on Ant Clustering Algorithm

SCTWC: An Online Semi-supervised Clustering Approach to Topical Web Crawlers

基于Windows日志的安全审计技术研究

一种Deep Web爬虫的设计与实现

改进的模糊C-均值聚类算法研究

Creating ensembles of classifiers with deflection

基于网格的TCP网络日志二次聚类算法

基于FCM的两级集成分类器算法

针对不平衡数据集的Bagging改进算法

基于场论的聚类算法

基于感知器的SVM自学习模型

标记错分样本的AdaBoost算法

数据集动态重构的集成迁移学习

决策树构建方法:向前两步优于一步

基于级联结构的不平衡数据集分类研究

不平衡数据集的神经网络阈值优化方法

超节点P2P网络中一种有效的缓存策略

Feature-denoising based on average fitness of genetic population

一种改进的基于遗传禁忌优化的NB算法

Email Representation using Noncharacteristic Information and its Application

Research of feature weights adjustment based on Semantic paragraphs matching

Feasibility research of text information filtering based on genetic algorithm

改进的访问统计方法及对用户兴趣度的计算

结合特征和非特征信息改进Na(i)ve Bayes及其应用

应用于垃圾邮件过滤的词序列核

应用于入侵取证的改进信息增益算法

一种基于矩阵的强关联规则生成算法

基于分类的半监督聚类方法

基于遗传算法的文本过滤模型及收敛性分析

基于核的k-medoids分类器的参数选择方法

Text summarization method applying vocabulary combination into sentence extraction

Text Representation Combining Syntax in Vector Space Model

强不可否认的指定验证者代理签名方案

Hybrid filtering model based on particle swarm optimization and genetic algorithm

基于细分变异算子策略的遗传算法

高效的无证书签名方案

基于最大熵模型的评价搭配识别

结合模糊聚类的遗传算法在网络信息过滤中的应用

山东省中小学信息技术教育情况调查与分析

基于双线性对的无证书签名与群签名方案

用于不均衡数据集分类的KNN算法

关联规则中频繁项集高效挖掘的研究

基于量子遗传算法的文本特征选择方法研究

基于退火遗传算法的网络信息过滤系统研究

自适应遗传算法在特征选择中的改进及应用

一种新的应用于文本特征子集优化的GATS算法

基于语义神经网络的文本特征选择方法的研究

一种基于改进Rocchio的网络信息过滤反馈算法研究

有关循环图C(n;{1,k})的独立数的一些结果(英文)

应用特征项分布信息的信息增益改进方法研究

一种基于语义特征的逻辑段落划分方法及应用

支持审计与取证联动的日志系统设计

Semi-supervised fuzzy clustering: a kernel-based approach

Research On E-mail Filtering Based On Improved Bayesian

主题Web挖掘研究

基于最近邻原则的半监督聚类算法

基于AdaBoost的欠抽样集成学习算法

支持向量回归参数调节及应用研究

The New Risk Assessment Model for Information System in Cloud Computing Environment

Proxy signature scheme with a semi-trusted third party

向量空间模型中结合句法的文本表示研究

集成学习的多分类器动态组合方法

基于核的最小距离分类法的参数选择方法

k-means算法的研究与改进

一种基于核函数分割数据集的分类器组合算法

一种基于信息熵的多分类器动态组合方法

一种挖掘频繁项的新方法

信息过滤中基于统计与规则的关键词抽取研究

云取证模型的构建与分析

基于排序索引矩阵的频繁项集挖掘算法

基于Map Reduce的序列模式挖掘算法

一种改进的混合蛙跳算法

结合特征和非特征信息改进NaiveBayes及其应用

基于自适应惯性权重的混沌粒子群算法

一种基于极性词典的情感分析方法

基于模拟退火的样本加权FCM算法

改进的模糊遗传算法及在信息过滤中的应用

融合扩展信息瓶颈理论的话题关联检测方法研究

高精度自适应的四边形网格重建

基于关联规则挖掘的网络安全审计技术研究

基于日志的安全审计系统研究与实现

结合角点特征与SIFT特征的加速图像匹配

基于速度增长的微博热点话题发现

一种新的自适应动态文化粒子群优化算法

期刊信息

《计算机应用研究》
北大核心期刊（2011版）

主管单位:四川省科学技术厅
主办单位:四川省计算机研究院
主编：刘营
地址：成都市成科西路3号
邮编：610041
邮箱：arocmag@163.com
电话：028-85210177 85249567

国际标准刊号：ISSN：1001-3695
国内统一刊号：ISSN：51-1196/TP
邮发代号:62-68

获奖情况:
第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:60049