位置:成果数据库 > 期刊 > 期刊详情页
基于SAS的web文本分类模型研究
  • ISSN号:1001-4748
  • 期刊名称:《山东师范大学学报:自然科学版》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:山东师范大学管理科学与工程学院,济南250014
  • 相关基金:国家自然科学基金资助项目(61170038;61472231);教育部人文社会科学项目(12YJA630152);山东省社会科学基金资助项目(11GGLJ22)
中文摘要:

通过建立模型对电商企业的客户查询信息进行文本分类分析,帮助企业掌握用户的消费习惯,同时帮助用户及时找到需要的商品.本文首先获取客户查询数据并对该文本数据进行预处理,利用改进的TF—IDF方法获得文本特征向量,最后结合朴素贝叶斯文本分类及半监督的EM迭代算法建立分类模型,并应用各种标准对模型进行评估,验证模型的有效性.多类别文本集选取文本特征时,关键词权值容易产生波动,本研究改进关键词权值计算公式来改善分类结果.实验结果表明分类器具有良好的分类效果.

英文摘要:

In this paper, we establish a model to analysis business enterprise customer query information for text classification to help e -commerce companies control the user's spending habits, and help users to find their needed goods. This study accesses to customer inquiry data and preprocesses these text data firstly. And then, the improved TF -IDF principle is applied to obtain the text feature vectors. Finally, this study establishes the classification model combining the Naive Bayes text classification and the semi - supervised EM iterative algorithm, and uses various criteria to evaluate the model. When facing multi - class text classification feature selection, keyword weights prone to great volatility. This study improves the keyword weight calculation formula to perfect the classification results. The experimental results show that classification has good classification effect.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东师范大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:山东省教育厅
  • 主办单位:山东师范大学
  • 主编:刘凯
  • 地址:山东济南市文化东路88号
  • 邮编:250014
  • 邮箱:jsnun@sdnu.edu.cn
  • 电话:0531-86180056 86180057
  • 国际标准刊号:ISSN:1001-4748
  • 国内统一刊号:ISSN:37-1166/N
  • 邮发代号:
  • 获奖情况:
  • 全国高校优秀学报,华东地区优秀期刊,山东省优秀期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),波兰哥白尼索引,中国中国科技核心期刊
  • 被引量:6742