位置:成果数据库 > 期刊 > 期刊详情页
基于演化超网络的中文文本分类方法
  • ISSN号:1671-7775
  • 期刊名称:江苏大学学报(自然科学版)
  • 时间:2013.3
  • 页码:196-201
  • 分类:TP391.4[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]重庆邮电大学计算机科学与技术学院,重庆400065, [2]计算智能重庆市重点实验室,重庆400065
  • 相关基金:国家自然科学基金资助项目(61075019);教育部留学回国人员科研启动基金资助项目(教外司留[2010]1174号);重庆市教育委员会科学技术研究项目(KJ110522)
  • 相关项目:面向不平衡数据分类的演化硬件集成学习方法研究
中文摘要:

为了提高中文文本的分类效果,提出了一种基于演化超网络的中文文本分类方法.采用中国科学院计算技术研究所的汉语词法分析系统对中文文本进行分词,保留文本中的名词、动词和形容词作为特征;以χ2统计方法进行特征选择;利用布尔权重计算特征权值.经处理后的特征向量作为系统的训练集和测试集数据.运用超边替代策略训练超网络分类模型,并实现对测试集特征向量的分类.对不同阶数设定下的演化超网络模型进行了性能分析,并将其与传统的KNN和SVM算法进行了比较.结果表明,本方法对复旦大学语料和搜狐语料可获得87.2%和72.5%的宏识别率、86.9%和70.5%的宏召回率、87.0%和71.5%的宏F1,接近或优于KNN和SVM分类方法.所提出的方法是一种有效的中文文本分类手段.

英文摘要:

In order to improve the performance of Chinese text categorization, a Chinese text categorization method was proposed based on evolutionary hypernetwork. A Chinese Lexical Analysis System ( ICT- CLAS) was employed to take the words with parts of verb, noun and adjective as candidate features. The χ2-test method was used to realize feature selection, and the feature weight was calculated by Boolean weighting. The preprocessed data sets were divided into training set and testing set. A hyperedge replacement strategy was used to train hypernetwork classification model for classifying testing sets. The classification performances of the hypernetwork models with different orders were analyzed and compared with traditional KNN and SVM. The experimental results show that the proposed scheme can achieve 87.2% and 72.5% of macro precision, 86.9% and 70.5% of macro recall, 87.0% and 71.5% of macro FI for Fudan University corpus and Sohu corpus, respectively. As an efficient tool for Chinese text classification, the proposed scheme is close to or better than KNN and SVM classification methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《江苏大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:江苏省教育厅
  • 主办单位:江苏大学
  • 主编:袁寿其
  • 地址:江苏省镇江梦溪园巷30号
  • 邮编:212003
  • 邮箱:xbbj@ujs.edu.cn
  • 电话:0511-84446612
  • 国际标准刊号:ISSN:1671-7775
  • 国内统一刊号:ISSN:32-1668/N
  • 邮发代号:28-83
  • 获奖情况:
  • 原“机械电子部优秀科技期刊二等奖,江苏省高校学报优秀期刊一等奖,江苏省优秀科技期刊奖,江苏省期刊方阵优秀期刊,华东地区优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),英国农业与生物科学研究中心文摘,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:8727