位置:成果数据库 > 期刊 > 期刊详情页
基于字符串相似性聚类的网络短文本舆情热点发现技术
  • ISSN号:0254-0037
  • 期刊名称:《北京工业大学学报》
  • 时间:0
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京工业大学计算机学院,北京100124
  • 相关基金:国家“九七三”计划资助项目(2007CB311100);北京市自然科学基金资助项目(4102012,4102013);北京市教育委员会科技发展计划面上资助项目(KM200810005030);北京工业大学青年科学基金资助项目.
中文摘要:

将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.

英文摘要:

The unique language characteristic of short texts has made the performance of traditional natural language processing methods degradation, or even unavailable. Exact representation and calculation of the similarity between short texts are great helpful to content based clustering. That this paper treated each short text as a composition of characters, numbers and punctuation, and a similarity measure based on string similarity was proposed. Then a public opinion hotspot detection and analysis system based on short text hierarchical clustering was built. This method calculated the similarity directly which skipped the feature extraction and representation processing of short text, to a certain extent, and avoided using the sparse feature vectors. Experimental results show the effectiveness of the proposed method.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京工业大学学报》
  • 中国科技核心期刊
  • 主管单位:北京市教委
  • 主办单位:北京工业大学
  • 主编:卢振洋
  • 地址:北京市朝阳区平乐园100号
  • 邮编:100124
  • 邮箱:xuebao@bjut.edu.cn
  • 电话:010-67392535
  • 国际标准刊号:ISSN:0254-0037
  • 国内统一刊号:ISSN:11-2286/T
  • 邮发代号:2-86
  • 获奖情况:
  • 中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:11924