位置:成果数据库 > 期刊 > 期刊详情页
高效的信任机制线性文本分类方法
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]南京工业大学信息科学与工程学院,江苏南京210009, [2]安徽师范大学信息管理中心,安徽芜湖241000
  • 相关基金:国家自然科学基金项目(60703071); 安徽省高校省级自然科学研究重点基金项目(KJ2009A63)
中文摘要:

基于信任机制设计了一种无须特征选择的高效的线性文本分类方法。面向特征与文档类的信任关系,使用bata概率密度函数评估特征的可靠度,提出特征对文档类的忠诚度的计算模型,基于忠诚度实现简单的线性文本分类器。采用20Newsgroup、复旦中文分类语料、SEWM2007评测语料等3个具有典型特征的单标签语料集,以朴素贝叶斯、KNN为比照算法进行了比较实验。实验结果表明,相对于传统算法,该算法分类性能显著提高,对不均匀语料和高维特征处理表现出很强的稳定性,同时算法执行速度快,适于大规模文本分类。

英文摘要:

A text categorization approach based on trust mechanism design is discussed,which is linear as well as no need of feature se-lection.The trust relation between feature and document class is analyzed.By using beta probability density function feature reliability,calculation model of loyalty degree is presented.Furthermore,linear text classifier is realized based on loyalty degree.In the experiments,Naive Bayes and KNN are selected as two comparison classifiers,and 20Newsgroup,Fudan Chinese evaluation data collection and SEWM2007 research corpus data are used to evaluate the effectiveness of the techniques proposed.The experimental results show the method could improve significantly the performance for text categorization,is suitable for large-scale text categorization and contributes a good solution for the difficulties of text categorization,such as high dimension characteristic of feature,in homogeneity of corpus and execution efficiency.

同期刊论文项目
期刊论文 33 会议论文 13 专利 1
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616