位置:成果数据库 > 期刊 > 期刊详情页
基于假设检验的文本分类特征选择
  • ISSN号:1002-0411
  • 期刊名称:《信息与控制》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国民航大学计算机科学与技术学院,天津300300
  • 相关基金:国家自然科学基金资助项目(60776806 60672174); 中国民航大学博士点启动基金资助项目(06qd08s)
中文摘要:

在T-C(tem-category)双向四格表中,特征与文档类相互独立与它们互不相关是等价的.基于此,本文应用了两种新颖的独立性假设检验方法来度量特征与文档类的相关程度,从文本集特征空间中选择能够高度代表文档内容的特征子集用于文本分类.实验结果表明,把假设检验应用于文本分类特征选择中,有利于提高分类性能.

英文摘要:

For the feature and the document category from a T-C(term-category) two-way four-fold contingency table, their mutual independence is equivalent to their mutual non-correlation.At this point,this paper uses two novel hypothesis test methods of independence to measure the degree of correlation between features and categories,and accordingly the high representative feature subset of the document content is selected out of the feature space of the text set for text categorization. The results of experiments show that the categorization performance can be improved by applying the hypothesis test-based feature selection to text categorization.

同期刊论文项目
期刊论文 15 会议论文 5 著作 1
同项目期刊论文
期刊信息
  • 《信息与控制》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国自动化学会 中国科学院沈阳自动化研究所
  • 主编:王天然
  • 地址:沈阳市南塔街114号
  • 邮编:110016
  • 邮箱:xk@sia.cn
  • 电话:024-23970049
  • 国际标准刊号:ISSN:1002-0411
  • 国内统一刊号:ISSN:21-1138/TP
  • 邮发代号:
  • 获奖情况:
  • 全国优秀期刊三等奖,中科院优秀期刊三等奖,辽宁省优秀期刊一等奖
  • 国内外数据库收录:
  • 美国数学评论(网络版),荷兰文摘与引文数据库,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:12960