位置:成果数据库 > 期刊 > 期刊详情页
基于套索(Lasso)的中文垃圾邮件过滤
  • ISSN号:1005-0523
  • 期刊名称:《华东交通大学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华东交通大学电气与电子工程学院 ,江西南昌330013, [2]华东交通大学信息工程学院,江西南昌330013
  • 相关基金:国家自然科学基金项目(71361009,61065003); 教育部人文社会科学研究项目(13YJC630192); 华东交通大学校立科研课题(09DQ04)
中文摘要:

使用向量空间模型表示的文本邮件数据高维而稀疏,不利于邮件过滤分类模型的建立,通常需在分类器训练前进行维数约减。Lasso回归是一种基于l1正则化的多元线性模型,其在模型参数估计的同时实现了变量选择。提出使用Lasso回归进行垃圾邮件过滤,建立Lasso回归邮件分类模型、Lasso回归词条选择结合逻辑回归的分类模型,结合中文文本垃圾邮件数据集TREC06C进行垃圾邮件过滤实验。实验结果表明Lasso回归词条选择结合逻辑回归的邮件分类模型性能更佳。

英文摘要:

Text email data depicted with vector space model are of high dimensionality and sparsity, which are not suitable for establishing email filtering classification model. Generally, such data should be reduced before classifier training. Lasso regression is a multivariate linear model based on l1 regularization, which can estimate model parameters while selecting the variables simultaneously. In this paper, the approaches to email classification based on Lasso are proposed. Also, the Lasso classification model and the logistical model with the selected term are established. Besides, simulation experiments with TREC06 C are carried out, and the results show that logistic regression model plus the term selected with Lasso achieves better performances.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华东交通大学学报》
  • 中国科技核心期刊
  • 主管单位:华东交通大学
  • 主办单位:华东交通大学
  • 主编:何柏林
  • 地址:天津市大寺泉集北里别墅17号联合征订服务部
  • 邮编:300385
  • 邮箱:jdxb@ecjtu.jx.cn
  • 电话:0791-87046655
  • 国际标准刊号:ISSN:1005-0523
  • 国内统一刊号:ISSN:36-1035/U
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 波兰哥白尼索引,中国中国科技核心期刊
  • 被引量:9060