面向海量文本数据的社会网络系统演化性与计算方法的研究面临的挑战概括为三个方面1)网络节点的自主协同带来的系统动态演化建模难问题;2)海量文本数据带来的计算准确性和时效性问题;以及3)语义多样性带来的概念描述不确定性问题。针对上述研究问题,项目从海量文本数据的内容分析、社会网络系统演化性,以及计算平台与典型应用等三方面展开了研究,重点研究了包括交互文本的会话抽取、面向多准则约束的社区发现方法、基于种子扩展的局部社区发现方法、基于概率模型的话题演化模型、基于原子事件的演化模式挖掘、基于频繁模式影响群落挖掘、分布式计算平台及应用等一系列关键技术,并在新浪微博、腾讯微博、Twitter等多种微博应用上完成了实验。研究工作回答了信息如何影响社会网络的演化、社会网络应用的网络结构如何影响信息的演化、以及如何基于大规模网络计算平台对上述演化过程进行有效计算等问题。本课题按照计划执行,圆满完成了计划书的研究内容,共发表高水平学术论文18篇,超出既定目标125%,进入SCI/EI的比例达到78%,结合课题研究,共培养博士生4名,硕士生6名,研究成果形成了面向微博的舆情分析与挖掘原型系统。
英文主题词social network;evolution;text mining;community discovery;topic model