位置:立项数据库 > 立项详情页
社交文本流中的实时事件监测和摘要
  • 项目名称:社交文本流中的实时事件监测和摘要
  • 项目类别:面上项目
  • 批准号:61073082
  • 申请代码:F020511
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:闫宏飞
  • 负责人职称:副教授
  • 依托单位:北京大学
  • 批准年度:2010
中文摘要:

Web 2.0的快速增长,用户不仅能被动地获取信息,还能够通过在线社区积极参与和表达自己的观点和意见。特别是博客和微博客网站(例如 Twitter,内容短小,可通过电脑、手机、PDA等发布)为网民提供了一种简单快捷的平台,便于交流信息、开展辩论,并形成社交团体和网络社区。社交文本流汇集民众当前观点和意见的即时信息,对于商家、情报分析员和政府是很有价值的。本项目的目的是研究针对社交文本流的通用事件监测模型和事件摘要算法,实现快速有效地发现并摘要事件。更具体地说,我们的研究目标是1) 事件监测模型设计一个针对社交文本流的通用事件监测模型2) 事件摘要框架提出一套新的从社交文本流中摘要事件的框架。概括事件不仅包括事实,而且有事件的社会影响 。3) 实时处理开发智能搜集系统,以及将事件监测和摘要算法分布并行化,达到面对海量社交文本流能够有实时事件发现和摘要的能力。

结论摘要:

Web 2.0的快速增长,用户不仅能被动地获取信息,还能够通过在线社区积极参与和表达自己的观点和意见。特别是博客和微博客网站(例如 Twitter,内容短小,可通过电脑、手机、PDA等发布)为网民提供了一种简单快捷的平台,便于交流信息、开展辩论,并形成社交团体和网络社区。社交文本流汇集民众当前观点和意见的即时信息,对于商家、情报分析员和政府是很有价值的。本项目的目的是研究针对社交文本流的通用事件监测模型和事件摘要算法,实现快速有效地发现并摘要事件。本项目的主要成果有以下几点 (1) 我们实现了中国事件检索与发现系统EventSearch。该系统的数据来自四种数据源,包括网页新闻,人民日报,中央电视台新闻联播,微博。其中网页新闻提取自 “中国互联网信息博物馆InfoMall”,包含有从2001年到2011年的1千1百万个网页。报纸和电视新闻视频也跨越2001至2011年。对于一个查询,系统会返回一个事件的摘要列表和与查询相关的事件分布情况(时间与地点),可以按照规模、时新性和相关性排序来展示。在事件的检测中,我们使用了一种新的基于burst词检测的方法。同时,我们还实现了一种在线的事件检测方法来提升系统的效果。 (2) 提取Twitter中的主题关键字。对Twitter的内容进行摘要和分析是一个重要和具有挑战性的的任务。我们提出利用主题关键词提取方法来对Twitter进行摘要。我们提出一个用于关键字排序的上下文敏感的主题PageRank模型(context-sensitive topical PageRank ,简记为cTPR)和一个用于关键短语排序的概率打分函数,该打分函数同时考虑了相关性和兴趣度。我们在一个大的Twitter数据集进行了实验, 选择了10个主题,涵盖了Twitter上的内容,对提取主题关键短语进行评价。这些主题如下表所示。实验结果表明,我们提出的方法是非常有效的。 (3) 提出一个优化的交互式个性化摘要。大多数传统的摘要方法输出是静态的和纯文本的,未能捕捉到用户的兴趣,因此通用的摘要算法为不同的用户生成的摘要是相同的。而且,同一个用户对于不同数据源的文档集合也有不同的摘要需求。因此,我们调查在摘要产生中的重要和具有挑战性的问题,即交互式个性化综述(IPS),以互动和个性化的方式产生摘要。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 5
  • 23
  • 0
  • 0
  • 2
会议论文
相关项目
期刊论文 18 会议论文 10 专利 3 著作 1
期刊论文 19 会议论文 8
期刊论文 29 会议论文 16 专利 4
闫宏飞的项目
期刊论文 7 会议论文 2