位置:成果数据库 > 期刊 > 期刊详情页
一种基于贪婪覆盖的文本分类方法
  • ISSN号:1005-3751
  • 期刊名称:计算机技术与发展
  • 时间:0
  • 页码:74-76
  • 语言:中文
  • 分类:TP311.5[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽大学计算智能与信号处理教育部重点实验室,安徽合肥230039
  • 相关基金:国家重点基础研究973计划资助项目(2004CB318108;2007CB311003);国家内然科学基金资助项目(60675031)
  • 相关项目:基于商空间拓扑结构变换的动态信息分析
中文摘要:

文本分类是信息检索和数据挖掘中的重要主题之一。文中提出了一种基于贪婪覆盖算法的文本分类方法,首先对文本进行分词,分词的结果用CHI统计量的方法提取特征,使用TF—IDF-ICSD进行特征权重计算。对贪婪覆盖算法采用另一种选取初始点的方法来构建分类器,用复旦大学语料库作为测试数据集,并与BP算法相比较。实验结果表明文本提出的方法是有效的。

英文摘要:

Text classification is one of the key topics in information retrieval and data mining. A new text categorization technique based on greedy cover algorithm (GCA) was presented in this paper. The method can be conducted as following, text segmentation, feature extraction using CHI statistic, calculating feature weighting with TF- IDF- ICSD, constructing classifier for GCA by employing another initial point. The proposed method was experimented on some test dataset taken from the Corpus of Fudan University. The test results show that the proposed method is feasible and effective compared to BP neural network algorithm.

同期刊论文项目
期刊论文 76 会议论文 15 专利 4 著作 1
同项目期刊论文