位置:成果数据库 > 期刊 > 期刊详情页
融合潜在主题信息和卷积语义特征的文本主题分类
  • ISSN号:1003-0530
  • 期刊名称:《信号处理》
  • 时间:0
  • 分类:TP391.4[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:中国科学技术大学语音及语言信息处理国家工程实验室,安徽合肥230022
  • 相关基金:国家重点研发计划项目(2016YFB1001300)
作者: 陈培新, 郭武
中文摘要:

经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流,卷积神经网络(Convolutional Neural Network,CNN)已成为目前一种主流的文本分类模型。本文通过CNN和概率主题模型PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了让文本特征向量更好地刻画文本的主题信息,本文将卷积语义特征和文本的潜在主题向量分别归一化以消除两者量级上的差异,然后将两者融合,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征向量能显著地提升文本主题分类任务的F1值。

英文摘要:

The classical probabilistic topic models, which are widely used in natural language processing, can discover the latent topic information of documents through the co-occurrences of words. In the recent years, with the successful applica-tions of word embedding and neural networks, the research of text categorization based on neural networks has formed the mainstream, and the CNN (Convolutional Neural Networks) has become one of state-of-the-art models in document catego-rization tasks. This paper shows the superiority of neural networks in text categorization tasks by comparing CNN with prob-abilistic topic models PLSA (Probabilistic Latent Semantic Analysis) and LDA (Latent Dirichlet Allocation). And then the document feature vector based on CNN can be extracted, and we name it Convolutional Semantic Feature (CSF) in this paper. In order to describe the topic information of documents better and improve the performance of topic categorization tasks, the CSF and latent topic vector are firstly normalized to eliminate the difference of their magnitude, and then they are combined to get a set of mixed feature for the document. The experimental results presented in this paper show that this set of mixed feature is superior to individual probabilistic topic model or CNN model, and can obviously improve the FI per-formance of topic categorization tasks.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《信号处理》
  • 中国科技核心期刊
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会
  • 主编:谢维信
  • 地址:北京鼓楼西大街41号
  • 邮编:100009
  • 邮箱:xhclfh@sohu.com
  • 电话:010-64010656
  • 国际标准刊号:ISSN:1003-0530
  • 国内统一刊号:ISSN:11-2406/TN
  • 邮发代号:80-531
  • 获奖情况:
  • 国家一级科技期刊
  • 国内外数据库收录:
  • 美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:10219