位置:成果数据库 > 期刊 > 期刊详情页
基于标题类别语义识别的文本分类算法研究
  • 期刊名称:王强,关毅,王晓龙,基于标题类别语义识别的文本分类算法研究,电子与信息学报﹒第29卷12 期,288
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金(60435020,60504021)资助课题
  • 相关项目:面向智能化信息检索的危险式人工免疫网络理论与方法研究
中文摘要:

本文提出了一种基于标题类别语义识别的文本分类算法。算法利用基于类别信息的特征选择策略构造分类的特征空间,通过识别文本标题中的特征词的类别语义来预测文本的候选类别,最后在候选类别空间中用分类器执行分类操作。实验表明该算法在有效降低分类候选数目的基础上可显著提高文本分类的精度,通过对类别空间表示效率指标的验证,进一步表明该算法有效地提高了文本表示空间的性能。

英文摘要:

This paper presents a new algorithm using title category semantic recognition for text categorization. The algorithm generates feature space based on its category, picks up category semantic words of the title to produce candidate category and finally classifies it under these candidate categories. The experimental results firmly prove that the new algorithm performs better with fewer candidates and higher precision. Further research introduces category space representation efficiency to verify the validity of the new algorithm and proves that it can achieve great improvement in text representation.

同期刊论文项目
同项目期刊论文