蛋白质交互关系的研究是后基因组时代的主要任务,为疾病的诊断、预防、治疗和新药的发现提供依据和启发。目前其文本挖掘的方法主要是从生物医学文献的摘要中抽取关系,但摘要中包含的信息有限,同时指代消解和语料库的领域适应问题都没有得到很好解决,致使抽取的性能较低。本项目针对生物医学文献全文并采用指代消解技术和迁移学习方法进行蛋白质交互关系抽取。内容主要包括1.蛋白质名识别及标准化;2.建立基于全文和针对蛋白质交互关系的指代消解模型;3.选择句子级和篇章级特征,组合含有领域知识的语义核建立基于全文的关系抽取模型;4.引入迁移学习思想并与主动学习相结合,解决蛋白质交互关系抽取中的领域适应问题。最终获得高性能的蛋白质交互关系抽取模型。并与领域专家合作,构建肝癌的蛋白质交互关系数据库及可视化,为肝癌的研究提供分子生物学知识,同时验证蛋白质交互关系抽取模型的真实有效性。
Protein-Protein Interaction;Coreference Resolution;Transfer Learning;Semantic Kernel;Information Extraction
蛋白质交互关系的研究是后基因组时代的主要任务,为疾病的诊断、预防、治疗和新药的发现提供依据和启发。本项目着重研究了针对生物医学文献全文,采用指代消解技术和迁移学习方法进行蛋白质交互关系抽取。内容主要包括基于组合分类器的蛋白质名称识别、整合多种有效方法的多阶段蛋白质名称标准化、组合机器学习和规则方法的指代消解、基于全文的蛋白质交互关系抽取、融合外部语义资源的组合核函数蛋白质交互关系抽取、基于迁移学习与主动学习相结合的蛋白质交互关系抽取以及蛋白质交互关系网络分析平台的构建。最终获得高性能的蛋白质交互关系抽取模型,以及包括蛋白质名称识别、标准化、指代消解和关系抽取的可视化系统。并与领域专家合作,构建了癌症相关的蛋白质交互关系数据库。为癌症的研究提供分子生物学知识,同时验证了蛋白质交互关系抽取模型的真实有效性。