位置:成果数据库 > 期刊 > 期刊详情页
抑制背景噪声的LDA子话题挖掘算法
  • ISSN号:1000-565X
  • 期刊名称:《华南理工大学学报:自然科学版》
  • 时间:0
  • 分类:TP393.09[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所//中国科学院网络数据科学与技术重点实验室,北京100190, [2]国家计算机网络应急技术处理协调中心,北京100029
  • 相关基金:国家自然科学基金资助项目(61303244,61572473,61572469,61402442,61402022,61370132);国家242信息安全计划项目(2015F114)
中文摘要:

专题文章集合是一些拥有相似背景知识的文章集合.为了更好地从专题文章集合内部的复杂信息关联中高效挖掘子话题信息,文中提出了抑制背景噪声的线性判别分析(LDA)子话题挖掘算法BLDA,通过预先抽取专题文档集合的共同背景知识、在迭代过程中重设关键词的产生等方式提高子话题抽取的准确程度.在微信公众账号文章上的系列实验证明,BLDA算法针对有共同背景的专题文章集合的聚类结果显著优于传统的LDA算法,其中主题召回率提高了170%,Purity聚类指标提高了143%,NMI聚类指标提高了160%.

英文摘要:

Special article set is a collection of articles with common background knowledge. In order to more effec-tively detect the subtopics form special article set with complex information correlation, an LDA subtopic detection algorithm with background noise restraintnamed BLDA is proposed, which improves the precision of subtopic detec-tion from article set by firstly extracting the common background knowledge and then reproducing the keywords in each iteration step. By a series of experiments on a set of WeChat documents from public accounts, it is proved that the detection results obtained by BLDA are much better than those obtained by LDA, with a topic recall rate incre-ment of about 170% , a Purity index increment of 143% and a NMI index increment of 160%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《华南理工大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部科技司
  • 主办单位:华南理工大学
  • 主编:李元元
  • 地址:广州市天河区五山路华南理工大学17号楼
  • 邮编:510640
  • 邮箱:journal@scut.edu.cn
  • 电话:
  • 国际标准刊号:ISSN:1000-565X
  • 国内统一刊号:ISSN:44-1251/T
  • 邮发代号:46-174
  • 获奖情况:
  • 本学报荣获1996年国家教委系统优秀科技期刊二等奖...,1999年荣获全国优秀高校自然科学学报及教育部优秀...,2001年荣获广东省优秀期刊奖和广东省优秀科技期刊...,2004年获全国高校优秀科技期刊二等奖,2006年获首届教育部优秀科技期刊奖,2008年荣获第二届教育部优秀科技期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:22954