对网络信息的话题内容进行智能处理,不仅具有重要的应用价值,而且在科学研究上也极具挑战性,是目前学术界研究的热点。针对网络信息在话题内容上的演变性、在传播方式上的流动性和社会性等特点,本项目把网络信息的话题挖掘和分析问题放在社会网络这一背景下进行,通过有机结合话题分析和社会网络分析这两方面的研究,以自然语言处理技术和机器学技术为基本手段,达到提高网络信息内容分析准确性的目标。本项目主要研究内容包括多层次多特征话题信息自适应过滤技术;以事件为核心的话题描述框架,以及基于事件模型的话题发现和信息抽取技术;面向网络文本信息的社会关系挖掘和社会网络分析技术;在此基础上,以社会网络挖掘为基础,有机融合网页的结构特征、文本内容的语义特征、信息传播特征和社会关系网络特征等,实现多特征融合的特定话题信息流的跟踪,以揭示重要话题的传播和演化规律,提高互联网信息的话题挖掘和分析的准确性。
英文主题词Topic Detection and Tracking; Social Networks Analyses; Natural Language Processing; Information Extraction; Information Filtering