知识库是语义Web、机器理解等技术的基础,如何利用Web中半结构化数据自动构建大规模全领域知识库是一个富有挑战性的课题。Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源,然而利用Deep Web自动构建知识库还鲜有研究。本项目拟基于海量的Deep Web数据,自动构建一个大规模全领域知识库。主要研究内容包括①研究面向Deep Web的概念、实体、属性和关系抽取方法,丰富知识库的内容,扩展知识库的规模;②研究基于联合机器学习的关系发现方法,实现知识库中节点间关系的自动发现,完善知识库中的关系,提高知识库的质量;③研究采用混合逻辑推理的关系验证及不一致关系的消解策略,提高知识的可信度和可依赖性。本项目的研究为大规模知识库自动构建提供新的解决方案,为知识获取拓展新数据源,对促进Web智能应用的进一步发展具有重要意义。
Deep Web;Knowledge Acquisition;Knowledge Base Construction;Discoveries of Relationship;
Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源。本项目围绕面向Deep Web的概念、实体、属性和关系抽取,关系验证与不一致关系消解展开研究,将Deep Web数据转换为语义知识并构建知识库。针对目前数据集成中多源Deep Web数据抽取方法适应性差、对多类型数据抽取效率低的问题,提出了一种全新的基于Markov逻辑网的通用数据记录抽取模型,该模型利用了基于视觉树的自动实体抽取策略,摆脱了传统DOM树仅适用于单数据区域连续型数据的限制,实现对多数据区域非连续数据的抽取,该模型能够容忍实体属性的不完整性和矛盾性。针对Deep Web数据组成结构的特殊性,提出了基于LDA主题模型的Deep Web数据记录概念抽取方法,该方法充分考虑了数据记录中存在若干实体的事实,论证了实体分布信息对记录中的单词分布产生一定的影响,提出将实体分布融入到LDA主题模型中,可细化主题的分类,增加可区分性。针对多源知识的语义异构问题,提出了一种基于Markov逻辑网的异构知识语义映射方法,从全局考虑实体和实体关系的映射问题,利用实体类别和关系的内在联系,提高映射的准确性。针对从多个数据质量参差不齐的数据源获取的知识存在不一致性问题,提出了一种基于主动迁移学习的实体解析方法,有效的识别来自多个数据源的结果页面中重复实体。在本项目研究成果和研究所前期工作的基础上,设计并实现了两个面向Deep Web的知识获取与集成的平台系统,目前系统整体运行效果良好,有效的验证了本项目提出的面向Deep Web的知识获取与集成方法的有效性。在项目实施过程中申请发明专利20项,其中4项已获授权;获得软件著作权2项;在国内、外核心期刊和国际会议发表学术论文36篇,其中SCI、EI检索36篇;成果通过省级鉴定1项;获得苏州市自然科学优秀论文奖1项;培养了多名科研骨干人才,其中包括博士研究生3名、硕士研究生16名。