基于文本中关系相似性的蛋白质交互作用自动识别研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于文本中关系相似性的蛋白质交互作用自动识别研究

项目名称：基于文本中关系相似性的蛋白质交互作用自动识别研究
项目类别：青年科学基金项目
批准号：61202132
申请代码：F020513
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：牛耘
依托单位：南京航空航天大学
批准年度：2012

中文摘要：

蛋白质交互作用（PPI）信息是解决大量生物学难题的关键，并且隐含在海量生物医学文本中。尽管现有的基于监督方法的PPI文本自动识别研究已取得了很大进展，但目前的方法仍受限于对单句信息以及标注数据的依赖。本项目提出一种新的从关系相似性出发与半监督学习相结合进行PPI识别的方法。其核心思想是针对文本中蛋白质交互作用的关系描述在不同语言层次上所表现出的相似性，以大规模文本为依据，提取相应的上下文特征，根据相似性计算对PPI信息进行判断识别。主要的研究内容和目标为: 1）设计以语义聚类为基础，体现PPI上下文描述信息分布规律的向量空间模型表示，全面刻画交互关系；2）建立新的相似性模型，利用关系实例之间的共性联系区别目标对象和噪音，提高PPI的识别精度；3）实现相似性计算与基于图的半监督方法的有效结合，突破目前PPI研究中人工标注的瓶颈，扩展自动识别技术的实际应用范围。

中文主题词：蛋白质交互关系；关系相似性；半监督模型；文本挖掘；自然语言处理

结论摘要：

英文主题词protein-protein interaction；relational similarity；semi-supervised model；text mining；natural language processing

成果综合统计