位置:成果数据库 > 期刊 > 期刊详情页
利用改进LSH算法进行层次化新闻话题检测
  • ISSN号:1007-5321
  • 期刊名称:《北京邮电大学学报》
  • 时间:0
  • 分类:TN391[电子电信—物理电子学]
  • 作者机构:[1]北京邮电大学网络与交换技术国家重点实验室,北京100876
  • 相关基金:国家自然科学基金项目(61002011); 国家重大专项项目(2012ZX03005010-003); 国家高技术研究发展计划项目(2014AA01A706)
中文摘要:

针对回顾式话题检测方法存在的话题检测时效性较差的问题,提出了改进的位置敏感哈希(LSH)算法,并应用于互联网新闻层次化话题检测.在挖掘新闻内容特征的同时,应用潜在狄利克雷分布主题模型挖掘新闻的语义特征,将非二进制空间的内容特征向量和主题特征向量转换到二进制特征空间上,依次应用LSH算法对新闻文本基于内容特征和主题特征聚类,得到具有"主题-内容"层次的话题.实验结果表明,该方法通过挖掘新闻的内容特征和主题特征,能更准确和完整地表现新闻内容;将内容特征和主题特征转换到统一的二进制空间,有效降低了聚类过程的时间复杂度,在保证话题检测准确率和话题在语义层面上扩展性的前提下,提高了话题检测的效率.

英文摘要:

To improve the timeliness of detecting topics in retrospective topic detection, an improved locality sensitive Hashing (LSH) algorithm is proposed and applied in constructing hierarchical topic model for web news. Firstly, the news content feature is excavated, and the topic feature is excavated using latent dirichlet allocation model. Then the non-binary content eigenvector and topic eigenvector are converted to binary feature space. Finally, news articles are clustered in order using binary content eigenvector and binary topic eigenvector by LSH, and the hierarchical topic-content news topic model is generated. Experiments prove the following results: extracting content feature and topic feature can express the news exactly; converting content eigenvector and topic eigenvector to unified binary space can reduce the time complexity of clustering, and thus increase the efficiency of topic detection while ensure the accuracy and semantic expansibility.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京邮电大学学报》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:北京邮电大学
  • 主编:刘杰
  • 地址:北京海淀区西土城路10号195信箱
  • 邮编:100876
  • 邮箱:byxb@bupt.edu.cn
  • 电话:010-62281995 62282742
  • 国际标准刊号:ISSN:1007-5321
  • 国内统一刊号:ISSN:11-3570/TN
  • 邮发代号:2-648
  • 获奖情况:
  • 美国工程信息公司(Ei)数据库收录期刊,1999年全国优秀高等学校自然科学学报及教育部优秀...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:7684