位置:成果数据库 > 期刊 > 期刊详情页
基于组合核的蛋白质交互关系抽取
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2013.1.15
  • 页码:86-92+128
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机学院,辽宁大连116023
  • 相关基金:同家自然科学基金资助项目(61173101,61173100)
  • 相关项目:跨语言信息检索中的机器翻译研究
中文摘要:

蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。

英文摘要:

Protein Protein Interaction(PPl)extraction is important in the field of biomedical information extraction for its high application value. This paper applies the support vector machine (SVM) to extract PPI, specifically, with an ensemble kernel combined with polynomial kernel and convolution tree kernel. To address the pruning of a corn plete syntax parsing tree which contains too much noise, we discuss the influence of different pruning slrategies to the experimental results with the complete tree, minimum complete tree, the minimum tree and the shortest path enclosed tree, finding the last one to be the best choice. On the basis of the shortest path enclosed tree, we propose a dynamic extended tree with better results than other syntax parsing tree. Finally, we use the ensemble kernel to extract PPI on the AIMED corpora with 10-fold cross-validation, with the precision, recall and F-score reaching 82. 40%, 51. 30% and 63.23%, respectively.

同期刊论文项目
期刊论文 50 会议论文 29 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136