网络知识源数量丰富,如何在信息处理具体任务中,将多源异构知识动态挖掘并有机融合起来为当前目标服务,是一个重要科学问题。本课题以实体排歧为具体任务,研究结构化知识源中的知识挖掘与融合方法、非结构化知识源中的知识挖掘与融合方法,探索多源异构知识在实体排歧中的应用,为网络时代基于知识的信息处理方法寻求有效途径。研究内容包括(1)提出基于语义图的结构化语义关联方法,对多源异构结构化知识统一建模,并有效挖掘和集成显式和隐藏的结构化知识;(2)建立知识驱动的语言模型,并通过基于相关文档扩展训练集和基于层级结构平滑参数两种手段,解决数据稀疏问题,实现非结构化知识源中知识的有效挖掘与集成;(3)提出基于结构化知识的实体聚类排歧方法,用知识关联替代简单词匹配,提高实体排歧系统的性能;(4)提出基于多源异构知识的实体链接方法,利用实体概念在知识空间中的关联信息辅助概率化语言模型进行实体链接排歧,提高其性能。
Named Entity Disambiguation;semantic knowledge mining;Semantic Knowledge Integration;;
网络知识源数量丰富,如何在信息处理任务中,将多源异构知识动态挖掘并有机融合起来为当前目标服务,是一个重要科学问题。本课题以实体排歧为具体任务,研究结构化知识源中的知识挖掘与融合方法、非结构化知识源中的知识挖掘与融合方法,探索多源异构知识在实体排歧中的应用,为网络时代基于知识的信息处理方法寻求有效途径。研究内容包括(1)提出基于语义图的结构化语义关联方法,对多源异构结构化知识统一建模,并有效挖掘和集成显式和隐藏的结构化知识;(2)建立知识驱动的语言模型,并通过基于相关文档扩展训练集和基于层级结构平滑参数两种手段,解决数据稀疏问题,实现非结构化知识源中知识的有效挖掘与集成;(3)提出基于结构化知识的实体聚类排歧方法,用知识关联替代简单词匹配,提高实体排歧系统的性能;(4)提出基于多源异构知识的实体链接方法,利用实体概念在知识空间中的关联信息辅助概率化语言模型进行实体链接排歧,提高其性能。主要研究成果包括国际顶级期刊和会议论文17篇,国家发明专利两项,国家软件著作权登记两项, 国际学术奖励一项(ACM KDD-CUP),被评为中国计算机学会2013年度CCF杰出演讲者,培养研究生多名。