语义知识是自然语言理解的基石,是实现文本各个层面智能分析的基础,其核心是概念与概念之间的语义关系。然而由于人工编写方法受制于专家构建的时间,低估了语义知识的复杂性和规模,大规模语义知识的缺乏一直是高性能自然语言处理的关键瓶颈。为此,本课题研究面向异构Web信息源的语义知识库构建,包括语义知识的表示、获取及融合方法。研究内容和创新之处包括1.提出大规模语义知识结构化表示模型-大规模异构概念语义网络,为Web环境下语义知识的表示、存储、推导和计算奠定基础;2.面向大规模异构Web信息源,以面向开放领域、自学习的信息抽取方法为技术手段,以自动语义知识获取和多源语义知识融合为重点研究内容,探索大规模语义知识库的自动构建,推动当前"语义知识瓶颈"问题的解决; 3.以高精度文本检索任务为平台,展示并验证了语义知识的应用。
Semantic Knowledge;Relation Extraction;Entity Set Expansion;Entity Linking;Knowledge Integration
语义知识的获取和集成是自然语言理解和人工智能的重要基础。本课题基于大规模异构Web信息源,研究语义知识的获取、融合和应用,在以下四个方面展开了研究并取得相应的研究成果(1)在知识融合方面,提出了面向实体链接的实体-主题模型,通过统一建模篇章的主题一致性和实体的上下文相关性,模型将文本中的知识与知识库中的知识以映射的方式进行集成;(2)在实体知识获取方面,提出了面向实体集合扩展的Co-Bootstrapping算法和基于图的查询日志实体别名抽取方法。Co-Bootstrapping算法可以有效的解决传统Bootstrapping方法的语义漂移问题的边界模型问题,大幅度的提升实体集合扩展性能;基于图的查询日志实体别名抽取方法可以有效解决传统别名抽取训练语料构建困难和时效性差这两个问题,实现高性能的别名挖掘;(3)在关系知识获取方面,提出了基于语义一致性的远距离监督关系抽取方法、面向关系抽取的特征丰富树核和基于维基百科和模式聚类的实体关系抽取方法。基于语义一致性的远距离监督方法通过充分利用知识库中的关系实例和文本中关系表达的规律性,有效的解决了没有标注语料情况下的关系抽取模型构建。特征丰富树核可以有效的解决传统树核表达能力不足和信息缺失的问题,进一步提升关系抽取的性能。基于维基百科和模式聚类的实体关系抽取方法从少量种子关系实例出发,利用Bootstrapping框架获取准确的关系实例;(4)在语义知识应用方面,提出了基于知识的查询日志切分方法和社区热点微博推荐算法。