位置:成果数据库 > 期刊 > 期刊详情页
基于DF与LSA相结合的降维法的文本分类系统的研究
  • ISSN号:1674-4578
  • 期刊名称:《山西电子技术》
  • 时间:0
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]昆明理工大学信息与自动化学院,云南昆明650051
  • 相关基金:本项目受国家自然科学资金项目(60663004)资助
中文摘要:

介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。

英文摘要:

This paper introduces the principle of Chinese text classification systems. The combined method of document frequency (DF) and latent semantic analysis (LSA) is used in the feature extraction. Firstly, the DF method is used to filter out low-value terms and to reduce the sparse matrix of text, then the LSA method is used to analyze sernanteme among the words and to eliminate the influence of synonyms and polysemous words, the combined method raises the speed and accuracy of text classification. The experimental results show that the proposed method for text classification is promising.

同期刊论文项目
期刊论文 23 会议论文 5
同项目期刊论文
期刊信息
  • 《山西电子技术》
  • 主管单位:山西省机械电子行业管理办公室
  • 主办单位:山西省电子工业科学研究院
  • 主编:王建生
  • 地址:山西省太原市平阳路173号
  • 邮编:030006
  • 邮箱:sxdzjs@126.com
  • 电话:0351-2527916
  • 国际标准刊号:ISSN:1674-4578
  • 国内统一刊号:ISSN:14-1214/TN
  • 邮发代号:
  • 获奖情况:
  • 2002年获山西省科协“优秀期刊”奖
  • 国内外数据库收录:
  • 被引量:2746