位置:成果数据库 > 期刊 > 期刊详情页
一种基于LDA的Web论坛低质量回帖检测方法
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展
  • 时间:0
  • 页码:1937-1946
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山东大学计算机科学与技术学院,济南250101
  • 相关基金:国家自然科学基金项目(60970047,61103151,61173068);山东省自然科学基金项目(Y2008G19);山东大学自主创新基金项目(11150070613165)
  • 相关项目:Web图像的语义表示及在聚类与排序中的应用
中文摘要:

为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(1atcntDirichletallocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾阳乍重要(J/I)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.

英文摘要:

Web forum is one of the major types of social media in Web 2. 0. However, the generated contents in Web forums can vary in quality, ranging from excellent detailed opinions to topic drift contents or swear words. Therefore, a novel LDA (latent Dirichlet allocation) based approach is proposed in this paper to detect low-quality posts in Web forums. Compared with previous methods, the new one uses both semantic and statistic features of a post to evaluate its quality. The semantic features include Junk/Insignificant (J/I) topic proportion, topic uncertainty and topic relevance, which are computed in LDA topic space in order to overcome the ineffectiveness of TF · IDF based features in short texts. An LDA model is firstly built to predict the topic distribution of each post. Then, semantic features of a post are computed based on its topic distribution. The statistic features contain surface, syntactic and forum specific features of posts, which are selected based on the analysis of the posts' contents. Since detecting the low-quality posts can be considered as a bi-classification problem, SVM is used to filter the low-quality posts. Experimental results on three different datasets show that the new approach outperforms the previous ones in terms of precision, recall and F~ values.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349