东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

短文本信息流的无监督会话抽取技术

ISSN号：1000-9825
期刊名称：软件学报
时间：2011.7.7
页码：735-747
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]国防科学技术大学计算机学院,湖南长沙410073, [2]国家计算机网络应急技术处理协调中心,北京100029
相关基金：国家自然科学基金（60933005,60873204）;国家高技术研究发展计划（863）（2001AA012505）;国家242信息安全计划课题（2009A90）
相关项目：Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

关键词：会话抽取, 短文本, 短文本信息流, 无监督, 时序特征, 上下文相关度, conversation extraction, short text message, short text message stream, unsupervised, temporalfeature, contextually correlative degree

中文摘要：

文本会话抽取将网络聊天记录等短丈本信息流中的信息根据其所属的会话分检到多个会话队列，有利于短文本信息的管理及进一步的挖掘．现有的会话抽取技术主要对基于丈本相似度的聚类方法进行改进。面临着短文本信息流的特征稀疏性、奇异性和动态性等挑战．针对这些挑战，研究无监督的会话抽取技术，提出了一种基于信息流时序特征和上下文相关度的抽取方法．首先研究了信息流的会话生命周期规律，提出基于信息产生频率的会话边界检测方法；其次提出信息间的上下文相关度概念，采用基于实例的机器学习方法计算该相关度；最后综合信息产生频率和上下文相关度，设计了基于Single—Pass聚类模型的会话在线抽取算法SPFC（single-passbased ON frequencyandcorrelation）．真实数据集上的实验结果表明，SPFC算法与已有的基于文本相似度的会话抽取算法相比，F1评测指标提高了30％．

英文摘要：

Short text message streams are produced by Short Message Service, Instant Messager and BBS, which are widely used. Each stream usually contains. Extracting the conversations in the streams is helpful to various applications including business intelligence, investigation of crime and public opinion analysis. Existing research mainly based on text similarity encounter challenges such as the anomaly, dynamics, and the sparse eigenvector of short text message. This paper proposes an innovative conversation extraction method to cover the challenges. Firstly, the study detects the conversation boundary of short text message streams using temporal feature; secondly, contextually correlative degree is introduced to replace similar degree, and an instance-based machine learning method is proposed to compute the correlative degree. Finally, the study designs Single-Pass based conversation extraction algorithm SPFC （single-pass based on frequency and correlation）, which combines the temporal and contextually correlative characteristics. Experimental results on a large real Chinese dataset show that this method SPFC improves the performance by 30% when compared with the best existing variation algorithm in terms of F1 measure.

同期刊论文项目

面向海量文本数据的社会网络系统演化性与计算方法研究

期刊论文 24 会议论文 9

Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

期刊论文 113 会议论文 114 获奖 6 专利 39

同项目期刊论文

一种基于相似性聚类的社会网络合作模式发现方法

文本分类算法研究

一种基于Chord的物联网信息服务方法

NaEPASC: a novel and efficient public auditing scheme for cloud data

基于中文维基百科链接结构与分类体系的语义相关度计算

Construction of unsupervised sentiment classifier on idioms resources

基于社会性标注的本体学习方法

第三届中文倾向性分析评测(COAE2011)语料的构建与分析

一种基于内存的高效在线数据处理服务框架

面向智能搜索的动态知识网络建模

基于传播模拟的消息流行度预测

基于开放网络知识的信息检索与数据挖掘

网民重要度建模方法研究

复杂网络的社区结构

图索引技术研究综述

网络舆情信息源影响力的评估研究

Twitter数据采集方案研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

网络维吾尔文判别及其文本长度下界的探讨

大规模短文本的不完全聚类

面向网络论坛的高质量主题发现

一种基于语料特性的聚类算法

基于随机游走模型的跨领域倾向性分析研究

一种基于空间映射及尺度变换的聚类框架

微博中基于统计特征与双向投票的垃圾用户发现

基于带权图的层次式化社区并行计算方法

A two-stage framework for cross-domain sentiment classification,

Adapting centroid classifier for document categorization

Uncovering the community structure associated with the diffusion dynamics on networks

Spectral methods for the detection of network community structure: a comparative analysis

Comprehensive Quantitative Analysis for Privacy Leak Software Behavior

Bridgeness: a local index on edge significance in maintaining global connectivity,

Contextual Correlation Based Thread Detection in Short Text Message Streams

跨领域倾向性分析相关技术研究

基于多视角特征融合的中文垃圾微博过滤

网络大数据:现状与展望

Design of an Evaluation System for Large Scale Network Attack Based on Emulab

a sampling method for mining user's preference

Detecting Hidden Anomalies Using Sketch for High-speed Network Data Stream Monitoring

Topic Diffusion Behavior Tracking in Online Social Network

基于密度估计的社会网络特征簇挖掘方法

Detecting Spammers in Microblogs

Cross-language Opinion Lexicon Extraction using Mutual-reinforcement Label Propagation.

Modelling and Analysis of an Integrated Scheduling Scheme with Heterogeneous LRD and SRD Traffic

Modelling priority queuing systems with varying service capacity

Degree-strength correlation reveals anomalous trading behavior.

Quality-of-Service Analysis of Queuing Systems with Long-Range-Dependent Network Traffic and Variabl

Providing Hierarchical Lookup Service for P2P-VoD Systems

Auto-sampling of feature words on imbalanced data

基于多维熵值分类的骨干网上异常检测研究

一种新型的层次化动态社区并行计算方法

一种基于LDA的在线主题演化挖掘模型

微博中基于多关系网络的话题层次影响力分析

基于二部图半监督方法的查询日志实体挖掘

面向分面导航的层次概念格模型及挖掘算法

基于半监督话题模型的用户查询日志命名实体挖掘

基于查询意图的长尾查询推荐

排序学习中数据噪音敏感度分析

一种基于社会性标注的网页排序算法

Analytical Modelling and Optimization of Congestion Control for Prioritized Multi-Class Self-Similar

基于情感关键句抽取的情感分类研究

基于随机博弈模型的网络攻防量化分析方法

Modeling the clustering in citation networks

Stochastic Game Net and Applications in Security Analysis for Enterprise Network

Mining Topical Influencers Based on the Multi-Relational Network in Micro-Blogging Sites

A dimensionality reduction framework for detection of multiscale structure in heterogeneous networks

基于热传导模型的更新摘要算法

Improving Text Categorization with Semantic Knowledge in Wikipedia

Covariance, correlation matrix, and the multiscale community structure of networks,

一种相关话题微博信息的筛选规则学习算法

开放式环境下一种基于信任度的RBAC模型

基于吸收态随机行走的两阶段效用性查询推荐方法

大规模层次分类中的候选类别搜索

一种基于情感符号的在线突发事件检测方法

基于词向量的开放文本领域概念识别方法

网络信息安全测试平台设计与实现

大规模层次分类问题研究及其进展

对等点播系统中节点搜索机制研究

基于带权图的层次化社区并行计算方法

Symbolic representation based on trend features for knowledge discovery in long time series

A WORD POSITION-RELATED LDA MODEL

基于中文维基百科链接结构与分类体系的语义相关度计算

社会网络中面向多准则约束的社区发现方法

非平衡数据下的特征词自动抽样研究

Mining Featured Clusters In Large Social Networks: A Particularity Analysis Approach

Analysis of the Interdependency and Supportiveness in Large Social Networks

基于密度估计的社会网络特征簇挖掘方法

一种新型的层次化动态社区并行计算方法

ICA：一种基于混合智能算法的移动Agent路由算法

P2P网络中具有激励机制的信任管理研究

P2P网络环境下基于信誉的分布式抗攻击信任管理模型

一种基于反馈可信度的分布式P2P信任模型

一种确保电子病历传输安全性的模型

基于带权图的层次化社区并行计算方法

适用于不确定文本分类的特征选择算法

适用于多种监督模型的特征选择方法研究

基于均矢量相似性的机器学习样本集划分

医院信息系统安全保障策略探析

基于Web的医院值班管理系统设计与实现

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609