本体是对客观存在的概念和关系的描述,它可以实现对知识的分类并支持逻辑推理。领域本体的构建过程是一项复杂的工程,构建优秀的领域本体对有效的组织、管理和维护海量信息并支持知识的交换、共享和复用具有重要的意义。本项目根据目前国内外研究现状提出基于主动学习和半监督学习技术来自动构建领域本体,针对领域本体构建需要,利用主题爬行技术获取初始领域本体以及更多的主题相关Web页面,作为领域本体学习的资源库。采用半监督学习技术解决获取大量有标记训练样本困难的问题,采用主动学习技术选择有利的训练数据以解决大量来源于未知环境的训练数据存在噪音的问题。通过对语料库的领域术语提取、句法分析、类别归属计算、关系提取等操作,进行领域本体的学习和扩充工作。本课题最终目标是解决领域本体自动构建过程中的关键问题,提供通用算法和通用程序,降低领域本体自动构建的代价,建立一个领域本体自动构建系统。
domain ontology construction;active learning;Semi-supervised learning;topical web crawling;
本项目根据目前国内外研究现状提出基于主动学习和半监督学习技术来自动构建领域本体,针对领域本体构建需要,利用主题爬行技术获取初始领域本体以及更多的主题相关Web 页面,作为领域本体学习的资源库。采用半监督学习技术解决获取大量有标记训练样本困难的问题,采用主动学习技术选择有利的训练数据以解决大量来源于未知环境的训练数据存在噪音的问题。通过对语料库的领域术语提取、句法分析、类别归属计算、关系提取等操作,进行领域本体的学习和扩充工作。项目组在本体基础理论、单词语义相似度度量、本体映射和词义消歧等方面都取得了重要成果。 实验结果表明,我们提出的领域本体构建框架及相关技术解决了领域本体自动构建过程中的诸多关键问题,降低了领域本体自动构建的代价。 构建优秀的领域本体对有效的组织、管理和维护海量信息并支持知识的交换、共享和复用具有重要的意义。 在本项目的支持下,在国际期刊《Computer Science and Information Systems》、《Journal of Software》,国内期刊《计算机研究与发展》等发表学术论文28篇,其中SCI/EI/ISTP检索论文21篇次。