位置:成果数据库 > 期刊 > 期刊详情页
基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法
  • ISSN号:1672-7207
  • 期刊名称:《中南大学学报:自然科学版》
  • 时间:0
  • 分类:TP312[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]湖南大学信息科学与工程学院,湖南长沙410082
  • 相关基金:国家自然科学基金资助项目(61272401,61133005,61173167,61070194); 国家高技术研究发展计划(“973”计划)子项目(2012CB315801)
中文摘要:

针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法。实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点。

英文摘要:

Existing Bayesian algorithms use Bernoulli model to process text features in the application to spam filtering,which does not distinguish the varying importance of various features,leading to a low recall rate in mail classification.In addition,existing Bayesian algorithms also have the risk of mis-judging legitimate mail.A Bayesian spam filtering algorithm was proposed based on the polynomial model and the low risk.The algorithm measures the weight of text features to distinguish their importance in mail classification,and then compares the probabilities that a mail respectively fall into the spam class or the normal mail class.The results show that this algorithm effectively improves the recall and precision rate of mail classification,and reduces the risk of mis-judging legitimate mail.Additionally,the algorithm is of smooth and little fluctuation when filtering mails with a large number of text characters.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中南大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:中南大学
  • 主编:黄伯云
  • 地址:湖南长沙中南大学校本部
  • 邮编:410083
  • 邮箱:zngdxb@csu.edu.cn
  • 电话:0731-88879765
  • 国际标准刊号:ISSN:1672-7207
  • 国内统一刊号:ISSN:43-1426/N
  • 邮发代号:42-19
  • 获奖情况:
  • 首届全国优秀科技期刊评比一等奖,第二届全国优秀科技期刊评比一等奖,首届中国有色金属工业优秀科技期刊评比一等奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:20874