位置:成果数据库 > 期刊 > 期刊详情页
基于灰关系与信息增益融合的文本分类模型
  • ISSN号:1000-7180
  • 期刊名称:《微电子学与计算机》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]解放军理工大学理学院,江苏南京210007, [2]解放军理工大学指挥自动化学院,江苏南京210007
  • 相关基金:国家自然科学基金资助项目(71071161)
中文摘要:

针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.

英文摘要:

In view of the information gain model defects in the text classification, this article puts forward a text classification algorithm based on the grey relation and information gain. Firstly, we improved a method of x2 statistics in sort feature selection in order to express text. In this way, we improve the precision of the class center vector. Secondly, according to the IG model weights the low frequency words too bigger, we put forward an improved weighted method basing on frequency and position. Lastly, we put forward a new way in text similarity calculation in order to improve the shortcomings of the similarity calculation model that based on distance. Subsequent text categorization test shows that this paper puts forward an improved IG method and enhances the text classification efficiency.

同期刊论文项目
期刊论文 62 著作 2
同项目期刊论文
期刊信息
  • 《微电子学与计算机》
  • 中国科技核心期刊
  • 主管单位:中国航天科技集团公司
  • 主办单位:中国航天科技集团公司第九研究院第七七一研究所
  • 主编:李新龙
  • 地址:西安市雁塔区太白南路198号
  • 邮编:710065
  • 邮箱:mc771@163.com
  • 电话:029-82262687
  • 国际标准刊号:ISSN:1000-7180
  • 国内统一刊号:ISSN:61-1123/TN
  • 邮发代号:52-16
  • 获奖情况:
  • 航天优秀期刊,陕西省优秀期刊一等奖
  • 国内外数据库收录:
  • 荷兰文摘与引文数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:17909