位置:立项数据库 > 立项详情页
基于Web知识挖掘与融合的命名实体消歧技术研究
  • 项目名称:基于Web知识挖掘与融合的命名实体消歧技术研究
  • 项目类别:面上项目
  • 批准号:61070106
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:赵军
  • 负责人职称:研究员
  • 依托单位:中国科学院自动化研究所
  • 批准年度:2010
中文摘要:

网络知识源数量丰富,如何在信息处理具体任务中,将多源异构知识动态挖掘并有机融合起来为当前目标服务,是一个重要科学问题。本课题以实体排歧为具体任务,研究结构化知识源中的知识挖掘与融合方法、非结构化知识源中的知识挖掘与融合方法,探索多源异构知识在实体排歧中的应用,为网络时代基于知识的信息处理方法寻求有效途径。研究内容包括(1)提出基于语义图的结构化语义关联方法,对多源异构结构化知识统一建模,并有效挖掘和集成显式和隐藏的结构化知识;(2)建立知识驱动的语言模型,并通过基于相关文档扩展训练集和基于层级结构平滑参数两种手段,解决数据稀疏问题,实现非结构化知识源中知识的有效挖掘与集成;(3)提出基于结构化知识的实体聚类排歧方法,用知识关联替代简单词匹配,提高实体排歧系统的性能;(4)提出基于多源异构知识的实体链接方法,利用实体概念在知识空间中的关联信息辅助概率化语言模型进行实体链接排歧,提高其性能。

结论摘要:

网络知识源数量丰富,如何在信息处理任务中,将多源异构知识动态挖掘并有机融合起来为当前目标服务,是一个重要科学问题。本课题以实体排歧为具体任务,研究结构化知识源中的知识挖掘与融合方法、非结构化知识源中的知识挖掘与融合方法,探索多源异构知识在实体排歧中的应用,为网络时代基于知识的信息处理方法寻求有效途径。研究内容包括(1)提出基于语义图的结构化语义关联方法,对多源异构结构化知识统一建模,并有效挖掘和集成显式和隐藏的结构化知识;(2)建立知识驱动的语言模型,并通过基于相关文档扩展训练集和基于层级结构平滑参数两种手段,解决数据稀疏问题,实现非结构化知识源中知识的有效挖掘与集成;(3)提出基于结构化知识的实体聚类排歧方法,用知识关联替代简单词匹配,提高实体排歧系统的性能;(4)提出基于多源异构知识的实体链接方法,利用实体概念在知识空间中的关联信息辅助概率化语言模型进行实体链接排歧,提高其性能。主要研究成果包括国际顶级期刊和会议论文17篇,国家发明专利两项,国家软件著作权登记两项, 国际学术奖励一项(ACM KDD-CUP),被评为中国计算机学会2013年度CCF杰出演讲者,培养研究生多名。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 11
  • 38
  • 0
  • 2
  • 0
会议论文
赵军的项目