Web社会网络是当前信息科学领域的热点。对这种新型Web平台上的用户行为模式和用户创造内容(User Generated Content)进行建模,不但对Web社会网络分析具有很高的科研价值,而且来自于信息检索和推荐等大量的实际应用需求。然而,Web社会网络的低可信度、丰富语义和复杂结构以及高度动态性对传统的文本挖掘技术提出了挑战。目前学术界对于Web社会网络的这三方面研究还不深入。本项目拟针对这三个挑战,对Web社会网络的用户和用户创造内容展开可信度、语义和结构、以及动态建模的系统研究。本项目拟达到如下目标1)提出用户创造内容的质量预测、基于层次结构的主题提取、增量式动态主题提取、可信用户识别、上下文相关的用户兴趣发现以及动态用户兴趣建模等关键技术;2)将以上研究成果应用到情景感知和动态的推荐及可信信息检索系统上,并参加相关权威评测;3)发表学术论文10篇以上。
Online Social Network;Microblog Search;Event Summarization;Matrix Factorization;Big Data
近年来,随着大量Web社区、社交媒体和微博的涌现,国际国内对于Web社会网络的研究成为热点。在此背景下,本项目重点研究Web社会网络上的用户与用户创造内容,从可信度、语义和结构、以及动态建模三方面入手,提出了一系列针对Web社会网络的建模方法,并应用在检索、摘要和推荐等多种创新应用中。其中,重要成果包括研究了不同形式的用户创造内容的质量预测问题,提出了对论坛帖子、问题回答的质量等静态“可信度”分类特征和集成分类方法;以及对微博与事件时效性的动态“可信度”预测方法,并结合语言模型中的伪相关反馈应用在微博实时检索中。研究了可信用户识别问题,从隐反馈中构建虚拟社会网络,并改进PageRank算法寻找专家用户。研究了大规模相似文本发现问题,改进了PassJoin算法,并基于MapReduce框架提出了基于编辑距离的相似文本发现的一种快速实现方法。研究了上下文相关的用户兴趣发现,提出了基于命名实体的用户兴趣表达,和矩阵填充算法解决稀疏性问题,并统一在矩阵分解框架中。研究了微博实时检索、微博事件摘要、新闻推荐等Web社会网络上的创新应用。本项目所提出的Web社会网络建模方法对于大数据时代的自然语言处理和机器学习领域的其他研究课题具有借鉴意义,各项创新应用具有商业价值,并已得到了腾讯、百度等互联网公司的课题资助。项目发表论文36篇,其中JCR 2区论文2篇,JCR 3区论文2篇,SCI论文总计7篇;CCF A类会议1篇,CCF B类会议3篇;EI论文合计22篇。项目培养研究生6名。