位置:成果数据库 > 期刊 > 期刊详情页
基于情感分析和LDA主题模型的协同过滤推荐算法
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]武汉大学计算机学院,武汉430072, [2]武汉大学深圳研究院,广东深圳518057, [3]软件工程国家重点实验室(武汉大学),武汉430072
  • 相关基金:国家自然科学基金项目(61472291,61303115,61272110); 2013年深圳知识创新计划基础研究项目
中文摘要:

社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering&topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面准确地抽取主题信息,快速有效地实现海量短文本分类.

英文摘要:

Short texts generated in social media have the characteristics of volume,velocity,low quality and variety,thus make the vector-space-based clustering methods face the challenges of highdimensions,features sparsity and noisy disturbing.In this paper,we propose a short texts clustering and topic extraction(STC-TE)framework based on the frequent itemsets mined from the texts.This framework firstly studies the impact of multi-features on the short texts'quality.Then,a large amount of frequent itemsets are dug out from the high quality short text set via setting a low support level,and a similar itemsets filtering strategy is devised to discard most of the unimportant frequent itemsets.Furthermore,based on the frequent itemsets similarity evaluated by relevant texts,we proposed a cluster self-adaptive spectral clustering(CSA_SC)algorithm to form the itemsets into different topic clusters.At last,the large-scale of short texts are classified into associated clusters according to the topic words extracted from the frequent itemset clusters.The framework is tested on one million of SinaWeibo dataset to evaluate the performance of the important frequent itemset selection and clustering,the topic words extraction,and the large scale of short texts classification.Experimental results show that the STC-TE framework can achieve topic extraction and large-scale short texts clustering with high accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136