位置:成果数据库 > 期刊 > 期刊详情页
基于特征项区分度的加权朴素贝叶斯邮件过滤方法
  • ISSN号:1000-386X
  • 期刊名称:《计算机应用与软件》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]河南理工大学计算机科学与技术学院,河南焦作454000, [2]吉林大学电子与工程学院,吉林长春130012
  • 相关基金:国家自然科学基金项目(51174263,61300216);教育部博士点基金项目(20124116120004);河南省教育厅科学技术研究重点项目(13A510325).
中文摘要:

如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息 MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。

英文摘要:

How to efficiently extract the features and the classification algorithm design are two keys to measure the advantages and disad-vantages of content-based spam filtering technology.In allusion to mutual information (MI)feature extraction algorithm and nave Bayes clas-sification algorithm,and by introducing the concept of feature term discrimination (FTD),we analyse the discrepancy of distinguishing ca-pacity of feature terms in categorising process,and then put forward a kind of feature extraction algorithm which gives the consideration to both FTD and MI.By further adding FTD to the design of classification algorithm,at last we present a weighted nave Bayes algorithm which solves the problem of content-base filtering efficiently.Experimental results show that the improved algorithm has significant improvement in terms of recall rate,precision rate and accuracy rate,and the performance of classification is more stable as well.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463