作为一种能在语义和知识层次上描述概念模型的建模工具,本体是语义Web中语义描述的核心和关键。针对本体学习中存在的两大关键问题本体概念的提取和概念间层次结构的获取,本项目在深入研究PAM (Pachinko Allocation Model)概率主题模型的构建、计算和测试等理论和方法基础上,开展基于PAM的本体概念及层次结构学习模型(OL-PAM)建模理论研究,包括OL-PAM模型的潜在主题空间生成机制、基于Gibbs Sampling的OL-PAM模型的参数估计方法、OL-PAM模型的推理算法和统计特征相似度度量方法等理论和关键技术研究,同时,基于OL-PAM模型提出并设计概念迭代生成算法和概念间层次关系获取方法,进而通过模拟实验对生成的本体概念及层次结构的性能进行评价与分析,以期拓展本体学习理论,为实现领域本体自动构建提供理论依据和支撑技术。
Pachinko Allocation Model;Ontology learning;concept of hierarchy learning;attribute learning;
本项目依据项目计划任务书,着重针对本体学习过程中的概念层次结构学习和属性学习两个关键问题,在研究术语之间的潜在语义基础上,开展了适用于本体学习的PAM(Pachinko Allocation Model)概率模型建立、Gibbs抽样方法参数估计、基于Web的本体概念属性提取方法和基于时序信息的主题跟踪与演化分析等理论和关键技术研究。研究工作中取得的重要进展包括 1)针对术语之间的潜在语义,开展了概率模型潜在主题空间生成机制、建立PAM模型、Gibbs抽样参数估计,并对建立的模型进行了训练和评价,实验使用GENIA语料库,由2000篇MEDLINE摘要组成,具有168384个生物学术语,实验结果表明,该模型能够很好地学习得到主题以及主题间相关性。 2)概率主题模型是结合概率论和图论的图模型表示方法,依据概率模型的文档生成过程及其逆过程,可以统计推断得到主题信息。探讨了PAM模型的框架、PAM四层模型结构以及PAM的改进模型,包括HPAM和NPB PAM,并对它们的性能进行了分析对比,探讨了PAM模型的发展趋势。 3)在项目研究过程中,提出了基于PAM的本体概念及层次学习模型,将概念层次学习问题描述并转化为几个子问题,即给定关于某专业领域的一组文档集合,通过预处理技术获取领域术语集;计算文档集关于术语集的词频矩阵;统计推断出术语及其关联概率特征项;并在此基础上,通过语义相似度计算来获取抽象描述文档集的一组概念的集合。通过在来源于Twitter的微博信息概念挖掘,取得了很好的效果。 4)针对本体概念属性提取问题,提出了基于Web的本体概念属性提取模型,并设计了一种基于语言模式、Web语料库和LDA的混合本体概念属性学习算法,根据已建立的文本集,利用LDA模型提取的属性词,对候选概念属性库进行修剪和合并,生成最终的概念属性集合。通过模拟实验,根据准确率、召回率和F值等指标对算法的性能进行评估分析。 5)结合新闻报道在时序上表现出的分布信息,将主题模型应用到新闻事件的主题跟踪和演化分析。利用K-Means聚类算法将语料库按时间划分成子语料库;然利用主题模型依次对每个子语料库建模并得到其主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,获取该事件的主主题和辅助主题,刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。