位置:成果数据库 > 期刊 > 期刊详情页
基于模式聚合和决策树的文本分类规则抽取
  • ISSN号:1007-7634
  • 期刊名称:情报科学
  • 时间:0
  • 作者或编辑:3448
  • 第一作者所属机构:天津大学系统工程研究所
  • 页码:24(1), 96-99
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]河北大学数学与计算机学院,河北保定071002, [2]天津大学系统工程研究所,天津300072
  • 相关基金:国家自然科学基金资助项目(60275020)
  • 相关项目:用于数据挖掘的神经网络模型及其融合技术研究
作者: 王煜|王正欧|
中文摘要:

本文首先提出一种改进的X^2统计量,以此衡量词条对文本分类的贡献。然后根据模式聚合理论,将对各文本类分类贡献比例相近似的词条聚合为一个特征,建立出文本集的特征向量空间模型。此方法有效地降低了文本特征向量空间的维数。最后使用决策树进行分类,从而既保证了分类精度又获得了决策树易于抽取可理解的分类规则的优势。

英文摘要:

In this paper, an improved X^2 statistic is given, which is used to measure contribution for categorization. The new method establishes the text vector space model in terms of the improved X^2 statistic and the theory of pattern aggregation, which merges some words as a new feature that has the approximate proportion of contribution for categorization, and so largely reduces the dimension of the vector space. And then, the decision tree is applied to text categorization. Both the understandable categorization rules and better accuracy of categorization can be acquired.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930