位置:成果数据库 > 期刊 > 期刊详情页
中文文本分类的两步特征选择法
  • ISSN号:1006-0871
  • 期刊名称:计算机辅助工程
  • 时间:0
  • 页码:76-80
  • 语言:中文
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]重庆邮电大学计算机科学与技术研究所,重庆400065
  • 相关基金:国家自然科学基金资助项目(60703010);重庆市自然科学基金资助项目(2009BB2079)
  • 相关项目:基于特征联想的中文短文本分类方法研究
中文摘要:

已知朴素贝叶斯分类器使用两步策略的分类方法提高了两类中文文本分类的效率,本文在此基础上,研究3个问题:①可以使用两步策略分类方法的分类器须满足的条件;②3种理论上可用两步策略进行文本分类的分类器;⑧实验比较Rocchio、朴素贝叶斯、KNN3种分类器两两组合后应用于多类英语文本分类的效果。实验结果表明:Rocchio、朴素贝叶斯、KNN3种分类器满足两步策略分类的条件,且当KNN作第一步分类器,朴素贝叶斯作第二步分类器时分类效果最好。

英文摘要:

Naive Bayesian classifier is known to use two-step classification strategy to improve the efficiency of two types of Chinese text categorization. This paper tries to solve the following three questions:(1) the condition of a classifier to be fulfilled by using two-step strategy text classification, (2) the theoretical analysis of the three classifiers which can be used for two-step strategy text classification, (3) experimental results comparison of Rocchio,Naive Bayes,KNN combination used in many types of English text classification. Experimental results show that the Rocchio,NB and KNN satisfy the condi- tions of two-step strategy. Best performance is achieved by using KNN as the first step classifier and NB as the second.

同期刊论文项目
期刊论文 18 会议论文 8 专利 1
同项目期刊论文
期刊信息
  • 《计算机辅助工程》
  • 主管单位:
  • 主办单位:上海海事大学
  • 主编:程景云
  • 地址:上海市临港新城海港大道1550号A30信箱
  • 邮编:201306
  • 邮箱:smucae@163.com
  • 电话:021-38284908
  • 国际标准刊号:ISSN:1006-0871
  • 国内统一刊号:ISSN:31-1679/TP
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:3590