位置:成果数据库 > 期刊 > 期刊详情页
强化类别贡献的文本特征权重方案
  • ISSN号:0254-0037
  • 期刊名称:北京工业大学学报
  • 时间:0
  • 页码:1389-1395
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京邮电大学网络与信息攻防技术教育部重点实验室,北京100876, [2]北京邮电大学灾备技术国家工程实验室,北京100876, [3]北京工业大学应用数理学院,北京100124
  • 相关基金:国家“863”计划资助项目(2009AA012430);国家自然科学基金资助项目(60972077).
  • 相关项目:基于行为分析的网络流量检测技术研究
中文摘要:

为使文本向量能准确表达文本信息、提升文本分类效果,提出了一种强化类别贡献的文本特征权重方案.利用后验概率定义了特征词的类别贡献度函数,结合相关频率权重因子,得到兼顾类别贡献度与类问分布差异的文本特征权重量化方案.在4个标准语料集上的测试结果表明,该方案实现简单,能更准确地刻画不同特征对分类的贡献差异,优化文本表示,并显著地提高文本分类效果.

英文摘要:

To accurately express text information by vector and improve the performance of text categorization, a term weighting scheme with enhanced category contribution for text categorization was proposed. Combining the term weighting factor of relevance frequency with the defined category contribution function based on posterior probability, the scheme gave consideration to the description of both category contribution and distributional differences among categories for terms. Experimental results on the four standard corpora show that the proposed scheme do accurately describe the contributions of different features on the classification, optimize the works of text representation and outperform the state- of-the-art methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京工业大学学报》
  • 中国科技核心期刊
  • 主管单位:北京市教委
  • 主办单位:北京工业大学
  • 主编:卢振洋
  • 地址:北京市朝阳区平乐园100号
  • 邮编:100124
  • 邮箱:xuebao@bjut.edu.cn
  • 电话:010-67392535
  • 国际标准刊号:ISSN:0254-0037
  • 国内统一刊号:ISSN:11-2286/T
  • 邮发代号:2-86
  • 获奖情况:
  • 中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:11924