位置:成果数据库 > 期刊 > 期刊详情页
覆盖算法下文本分类特征选择的研究
  • ISSN号:1005-3751
  • 期刊名称:计算机技术与发展
  • 时间:0
  • 页码:29-31
  • 语言:中文
  • 分类:TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039
  • 相关基金:基金项目:国家自然科学基金(60675031);“九七三”计划国家重点基础研究(2004CB318108,2007BC311003)
  • 相关项目:基于商空间拓扑结构变换的动态信息分析
中文摘要:

文本分类是信息检索和数据挖掘的基础,被广泛应用于网络数据挖掘及搜索引擎等方面。首先对文本进行分词,对分词的结果分别使用x^2。统计量(CHI)方法与相关系数法(CC法)进行降维,并使用维数调节的思想进行特征提取。在得到特征集后,使用覆盖算法作为文本分类器进行学习。实验结果表明,通过结合相关系数法、覆盖算法以及维数调节方法,可实现一个效果较好的文本分类器。

英文摘要:

Text classification is the base of information retrieval and data mining and it is widely used in web data mining and search engine. Divides texts into words firstly and uses two methods named x^2 statistic and correlation coefficient to reduce dimensions, and then uses dimension regulation to obtain the feature. After getting the feature set, uses cover algorithm as a text classifier to study. The result of experiment indicates that it is an effective way to realize a text classifier with the combination of correlation coefficient, cover algorithm and dimension regulation.

同期刊论文项目
期刊论文 76 会议论文 15 专利 4 著作 1
同项目期刊论文