位置:成果数据库 > 期刊 > 期刊详情页
一种基于随机森林的多视角文本分类方法
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:343-361
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京大学计算机软件新技术国家重点实验室、南京大学计算机科学与技术系,江苏南京210093
  • 相关基金:国家863计划资助项目(2006AA010109);国家自然科学基金资助项目(60673043);国家社科资金资助项目(07BYY051)
  • 相关项目:基于统计关系学习的汉语指代消解研究
中文摘要:

基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Diriehlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。

英文摘要:

Term-based Vector Space Model (VSM) is a traditional approach to representing documents, which defects in its neglecting of the relations between terms. To capture the relations hetween the terms, some latent topicsbased document representations such as LDA (Latent Dirichlet Allocation) have arisen much attention recently. However, simple latent topic-based text representations may cause loss of information carried by terms. In this paper, we use a modified random forests method to combine the term based and the LDA latent topic based documents representation. Random forests are constructed separately for two kinds of text representations and the final classification result is decided by vote scheme. The experimental results on some standard datasets show that, compared with methods only using one set of text features, our method can efficiently combine two kinds of text representations and improve the performance of text categorization.

同期刊论文项目
期刊论文 23 会议论文 10 专利 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136