随着网络传播平台的发达以及社会上各类突发事件的频繁发生,及时准确获取网络信息的需求已经变得非常迫切,网页内容真实性评价也因此成为需要解决的一大难题。本项目将着眼于从网络信息源可靠性、网络文本质量以及言据性三个侧面全面的评价文本的真实性。具体包括构建网络信息源模型,从信息发布者、信息发布渠道等角度去获取网络文本的发布渠道相关特征;探讨网络文本质量特征对于文本真实性之间的相关关系,从文本可理解性、表述性等角度考察网络文本真实性;此外,引入言据性理论中据素的概念,探索如何抽取文本中的据素、如何基于预标注文本集合的统计分布,并计算据素在事件可信性分类中的特征权重;最后,在抽取整合发布渠道特征、文本质量特征以及文本言据性特征基础上构建网络文本真实性评价的基本理论框架,并最终实现网络文本内容的真实性标注,对有争议的文本同时标注上争议文本的信息源,从而为网络用户和搜索引擎排序提供很好的真实性参考信息。
Web content;Authenticity evaluation;Release channels;Web text quality;Evidentiality
随着网络传播平台的发达以及社会上各类突发事件的频繁发生,及时准确获取网络信息的需求已经变得非常迫切,网页内容真实性评价也因此成为需要解决的一大难题。本项目着眼于从网络信息源可靠性、网络文本质量以及言据性三个侧面全面的评价文本的真实性。具体包括构建网络信息源模型,从信息发布者、信息发布渠道等角度去获取网络文本的发布渠道相关特征;探讨网络文本质量特征对于文本真实性之间的相关关系,从文本可理解性、表述性等角度考察网络文本真实性;此外,引入言据性理论中据素的概念,探索如何抽取文本中的据素、如何基于预标注文本集合的统计分布,并计算据素在事件可信性分类中的特征权重;最后,在抽取整合发布渠道特征、文本质量特征以及文本言据性特征基础上构建网络文本真实性评价的基本理论框架,并最终实现网络文本内容的真实性标注,对有争议的文本同时标注上争议文本的信息源,从而为网络用户和搜索引擎排序提供很好的真实性参考信息。