位置:成果数据库 > 期刊 > 期刊详情页
基于潜在语义分析和改进的HS—SVM的文本分类模型研究
  • ISSN号:0252-3116
  • 期刊名称:《图书情报工作》
  • 时间:0
  • 分类:G350[文化科学—情报学]
  • 作者机构:[1]武汉大学信息资源研究中心,武汉430072
  • 相关基金:本文系教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08JJD870225)研究成果之一.
中文摘要:

为提高文本分类的准确性与效率,提出一种基于潜在语义分析和改进的超球支持向量机的文本分类模型。该模型利用潜在语义分析进行特征抽取,消除同义词和多义词在文本表示时所造成的偏差,实现文本向量的降维。针对超球重叠区域的文本分类问题,设计一种新的决策方法一基于密集度的决策策略。实验结果表明,该模型在类别数目较小时具有较好的分类效果,改进的算法有效可行。

英文摘要:

A text classification model, which is based on Latent Semantic Analysis and Improved of Hyper-sphere Support Vector Machine, is proposed in order to improve the accuracy and efficiency of text classification. Using the latent semantic analysis for feature extraction in this model, the affect of synonymy and polysemy in text representation process is eliminated and the dimension of text vector is reduced. A new approach to decision making, which is based on the intensity, is designed for the text classification of ultra-overlapping regions in the ball. Experimental results show that the model will give a good classification results when the number of the classes is small. The improved algorithm is effective and feasible.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《图书情报工作》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院文献情报中心
  • 主编:初景利
  • 地址:北京中关村北四环西路33号
  • 邮编:100190
  • 邮箱:journal@mail.las.ac.cn
  • 电话:010-82623933 82626611-6614
  • 国际标准刊号:ISSN:0252-3116
  • 国内统一刊号:ISSN:11-1541/G2
  • 邮发代号:2-412
  • 获奖情况:
  • 多次荣获"全国图书馆学优秀期刊"、"全国优秀科技...,2005年,更荣获中国国家期刊奖二等奖,是本届唯一...
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:57601