位置:成果数据库 > 期刊 > 期刊详情页
基于朴素贝叶斯与潜在狄利克雷分布相结合的情感分析
  • ISSN号:1001-9081
  • 期刊名称:《计算机应用》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武昌首义学院信息科学与工程学院,武汉430064, [2]华中师范大学计算机学院,武汉430079
  • 相关基金:国家社会科学基金重大项目(12&2D223); 国家自然科学基金资助项目(61402191,61300144,61572223); 国家语委科研项目(WT125-44); 华中师范大学自主科研项目(CCNU14A05014,CCNU14A05015)
中文摘要:

针对情感分析需要大量人工标注语料的难点,提出了一种面向无指导情感分析的层次性生成模型。该模型将朴素贝叶斯(NB)模型和潜在狄利克雷分布(LDA)相结合,仅仅需要合适的情感词典,不需要篇章级别和句子级别的标注信息即可同时对网络评论的篇章级别和句子级别的情感倾向进行分析。该模型假设每个句子而不是每个单词拥有一个潜在的情感变量;然后,该情感变量再以朴素贝叶斯的方式生成一系列独立的特征。在该模型中,朴素贝叶斯假设的引入使得该模型可以结合自然语言处理(NLP)相关的技术,例如依存分析、句法分析等,用以提高无指导情感分析的性能。在两个情感语料数据集上的实验结果显示,该模型能够自动推导出篇章级别和句子级别的情感极性,该模型的正确率显著优于其他无指导的方法,甚至接近部分半指导或有指导的研究方法。

英文摘要:

Generally the manually labeled corpus is a critical resource for sentiment analysis. To circumvent laborious annotation efforts,an unsupervised hierarchical generation model for sentiment analysis was presented,which was based on the combination of Naive Bayes( NB) and Latent Dirichlet Allocation( LDA),named Naive Bayes and Latent Dirichlet Allocation(NB-LDA). Just needing the right emotional dictionary,the emotional tendencies of network comments were analyzed at sentence level and document level simultaneously without sentence level and document level markup information. In particular,the proposed model assumed that each sentence instead of each word had a latent sentiment label,and then the sentiment label generated a series of features for the sentence independently by the NB manner. The proposed model could combine the advanced Natural Language Processing( NLP) correlation technologies such as dependency parsing and syntactic parsing by the introduction of NB assumption and could be used to improve the performance for unsupervised sentiment analysis. The experimental results conducted on two sentiment corpus datasets show that the proposed NB-LDA can automatically derive the emotional polarities of sentence level and document level,and significantly improve the accuracy of sentiment analysis compared to the other unsupervised methods. Moreover,as an unsupervised model,the NB-LDA can achieve comparable performance to some supervised or semi-supervised methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术协会
  • 主办单位:四川省计算机学会中国科学院成都分院
  • 主编:张景中
  • 地址:成都市人民南路四段九号科分院计算所
  • 邮编:610041
  • 邮箱:xzh@joca.cn
  • 电话:028-85224283
  • 国际标准刊号:ISSN:1001-9081
  • 国内统一刊号:ISSN:51-1307/TP
  • 邮发代号:62-110
  • 获奖情况:
  • 全国优秀科技期刊一等奖,国家期刊奖提名奖,中国期刊方阵双奖期刊,中文核心期刊,中国科技核心期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:53679