本项目拟通过对事件信息的收集、聚类、时序梳理、评论分析等,对相关事件文档进行系统整理,使用隐性链接分析、命名体识别、结构化信息提取、基于人工词典的文本聚类、定性分析方程等方法和技术,按要素提取事件的简要描述,理清事件的发展脉络,把握事件影响力变化趋势,同时对事件在各阶段的发展进行主流评论分析,让用户对所关心的热点事件能够有彻底、全面的了解和把握。针对在线事件,还可以通过事件话题传播关键点和主要影响因素的分析,预测事件的发展和话题未来变化趋势,并根据需要提供预警。本项目希望能够从技术上为搜索引擎实现"事件检索和分析"功能提供支持和帮助,从而为广大Web用户了解热点事件和热门话题提供帮助,为企事业单位对和自身相关的事件进行全面的把握和分析提供支持,同时为各级社会管理者及时掌握潜在的网络舆情提供服务。
event;evolutionary summarization;timeline;ranking;sentiment analysis
随着Web信息变化越来越快,及时把握在线事件并进行分析和展示也变得越来越困难。本项目通过对相关问题的研究,获得了原创性算法和技术的突破,并利用研究成果建立了原型系统,预定计划全部完成。项目在以下方面取得了技术突破(1)事件多版本描述和时序发展记录;(2)复杂事件演变转折点判断;(3)新闻报道和评论的情感分析;(4)新闻事件的图文摘要。特别地,针对事件演进式摘要,我们于2011年提出了基于交互优化和循环替代优化的演进式摘要生成技术。2012年,微软“杰出科学家” Eric 在数据挖掘顶级会议KDD和Web信息处理顶级会议WWW上发表文章,把我们的工作和著名信息检索专家、麻省大学教授James Allan的工作相提并论。我们的SIGIR论文在短短两年的时间已经被引用三十余次,其中大多是AAAI、SIGIR、KDD、ACL这些顶级会议论文的引用。