蛋白质交互作用(PPI)信息是解决大量生物学难题的关键,并且隐含在海量生物医学文本中。尽管现有的基于监督方法的PPI文本自动识别研究已取得了很大进展,但目前的方法仍受限于对单句信息以及标注数据的依赖。本项目提出一种新的从关系相似性出发与半监督学习相结合进行PPI识别的方法。其核心思想是针对文本中蛋白质交互作用的关系描述在不同语言层次上所表现出的相似性,以大规模文本为依据,提取相应的上下文特征,根据相似性计算对PPI信息进行判断识别。主要的研究内容和目标为: 1)设计以语义聚类为基础,体现PPI上下文描述信息分布规律的向量空间模型表示,全面刻画交互关系;2)建立新的相似性模型,利用关系实例之间的共性联系区别目标对象和噪音,提高PPI的识别精度;3)实现相似性计算与基于图的半监督方法的有效结合,突破目前PPI研究中人工标注的瓶颈,扩展自动识别技术的实际应用范围。
英文主题词protein-protein interaction;relational similarity;semi-supervised model;text mining;natural language processing