位置:成果数据库 > 期刊 > 期刊详情页
基于语义关联和信息增益的TFIDF改进算法研究
  • ISSN号:1001-3695
  • 期刊名称:计算机应用研究
  • 时间:2012
  • 页码:557-560
  • 分类:TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]广西大学计算机与电子信息学院,南宁530004
  • 相关基金:国家自然科学基金资助项目(61063032); 广西教育厅科研基金资助项目(201012MS010)
  • 相关项目:非结构化数据环境下基于认知机理的拓扑化粒度计算和知识获取研究
中文摘要:

基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。

英文摘要:

Both the traditional and improved term frequency-inverse document frequency(TFIDF) algorithms ignored the difference of distributions among different categories in feature extraction.Due to the lacking of consideration of semantic relationships within some certain categories,the selected feature word cannot describe the contents of the document correctly and accurately.In order to select feature more accurately,in this paper,based on the previous improvements,introduced the semantic association of words to analyze the semantic of text,redesigned the weights equation,and proposed the new TFIDF algorithm combined with semantic and information gain.The developed algorithm can make up for the shortcomings of the lack of semantic information in statistical method.Experimental results illustrate that the improved algorithm can effectively improve text classification accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049