东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于字符串相似性聚类的网络短文本舆情热点发现技术

ISSN号：0254-0037
期刊名称：《北京工业大学学报》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京工业大学计算机学院,北京100124
相关基金：国家“九七三”计划资助项目（2007CB311100）;北京市自然科学基金资助项目（4102012,4102013）;北京市教育委员会科技发展计划面上资助项目（KM200810005030）;北京工业大学青年科学基金资助项目.

关键词：舆情分析, 短文本处理, 层次聚类, public opinion analysis, short text processing, hierarchical clustering

中文摘要：

将每个短文本文档看成一个由文字、数字和标点构成的字符串，并基于字符串自身的特性直接计算其相似性，在此基础上进行短文本层次化聚类，进而发现网络舆情热点．由于这种方法免去特征提取和文本表示过程，在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足，有效解决了短文本内容聚类问题．实验结果表明，本文提出方法有效．

英文摘要：

The unique language characteristic of short texts has made the performance of traditional natural language processing methods degradation, or even unavailable. Exact representation and calculation of the similarity between short texts are great helpful to content based clustering. That this paper treated each short text as a composition of characters, numbers and punctuation, and a similarity measure based on string similarity was proposed. Then a public opinion hotspot detection and analysis system based on short text hierarchical clustering was built. This method calculated the similarity directly which skipped the feature extraction and representation processing of short text, to a certain extent, and avoided using the sparse feature vectors. Experimental results show the effectiveness of the proposed method.

同期刊论文项目

　面向网上短文本信息舆情分析的统计过滤与语义聚类研究

期刊论文 11

　生物视觉建模及在视听障碍儿童的视觉注意训练中的应用

期刊论文 4

同项目期刊论文

改进贝叶斯算法在未知恶意软件识别中的研究

基于尾项加权的自适应文本分类方法研究

邮件网络协同过滤机制研究

基于分水岭和K-均值的半自动眉毛图像分割

一种数字内容侵权散布与取证模型

一种改进的动态用户认证协议

基于上下文重构的短文本情感极性判别研究

一种新的DRM使用控制协议模型的研究

基于虚拟机的安全技术研究

基于数据预处理的DDoS攻击检测方法研究

邮件网络协同过滤机制研究

基于上下文重构的短文本情感极性判别研究

听力障碍群体的保持性注意发展

期刊信息

《北京工业大学学报》
中国科技核心期刊

主管单位:北京市教委
主办单位:北京工业大学
主编：卢振洋
地址：北京市朝阳区平乐园100号
邮编：100124
邮箱：xuebao@bjut.edu.cn
电话：010-67392535

国际标准刊号：ISSN：0254-0037
国内统一刊号：ISSN：11-2286/T
邮发代号:2-86

获奖情况:
中国高等学校自然科学学报优秀学报二等奖,北京市优秀期刊,华北5省市优秀期刊,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,美国化学文摘（网络版）,美国数学评论（网络版）,德国数学文摘,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:11924