位置:成果数据库 > 期刊 > 期刊详情页
一种基于类别分布信息的中文文本分类模型
  • ISSN号:0252-3116
  • 期刊名称:《图书情报工作》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]解放军理工大学指挥自动化学院,南京210007, [2]解放军理工大学理学院,南京210007
  • 相关基金:本文系国家自然科学基金资助项目“基于不完全信息的交互式群决策理论及其应用”(项目编号:70571087)研究成果之一.
中文摘要:

特征降维是文本分类面临的主要问题之一。首先通过x^2分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。

英文摘要:

The feature reduction is one of the main problems in text classification ,Firstly, the authors select features by using CHI distribution. Secondly,the authors cluster the selected features by using an improved method which based on density dustering. In virtue of the sort distribution information, the authors reduce the number of features twice and the information lost few, Lastly, based on the sort of texts, the authors use the distributing of probability to express text with matrix, and realizes the text categorization by using matrix norm. The experiment shows that this method has a higher precision for the text classification.

同期刊论文项目
期刊论文 77 会议论文 10 获奖 2 著作 1
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601