位置:成果数据库 > 期刊 > 期刊详情页
基于词性加权和单词相似性的蛋白质交互识别
  • ISSN号:1673-629X
  • 期刊名称:计算机技术与发展
  • 时间:2015.11
  • 页码:6-9
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:南京航空航天大学计算机科学与技术学院,江苏南京210016
  • 相关基金:国家自然科学基金资助项目(61202132,61170043)
  • 相关项目:基于文本中关系相似性的蛋白质交互作用自动识别研究
作者: 吴红梅|牛耘|
中文摘要:

与现有绝大多数以单个句子为依据的蛋白质自动识别方式不同,文中基于大规模语料库提出了引入句法和单词相似性这两个因素的蛋白质交互自动识别方法。首先,采用基于特征的方法对蛋白质对签名档进行分类。然后,使用分词工具对蛋白质对签名档进行词性标注,将不同词性的特征词语进行分组,并对每种词性进行加权。最后,基于大规模语料库的方法计算得到单词相似性,根据单词在正、负类中频率的差别调整单词相似性矩阵。实验结果表明,引入词性加权和单词相似性两个因素后,最终的分类结果较基准模型的识别精度有了明显的提升。

英文摘要:

Be different from the existing vast majority of Protein-Protein Identification (PPI) based on a sentence ,in this paper,put for- ward a new PPI identification method that introduces syntax and word similarity based on large-scale corpus. First of all, feature-based method is used to classify the protein signature. Then, a segmentation tool is used to Part-Of-Speech (POS) tag protein signatures, so that,feature words based on different POS are grouped and different weights are assigned to each POS of words. Finally,word similarity is calculated through the method based on large-scale corpus and the word similarity matrix is adjusted by the difference in the frequen- cies between positive class and negative class. The experimental results show that once the weighted POS and word similarity are intro- duced,the final classification accuracy is obviously improved than the benchmark model.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机技术与发展》
  • 中国科技核心期刊
  • 主管单位:陕西省工业和信息化厅
  • 主办单位:陕西省计算机学会
  • 主编:王守智
  • 地址:西安市雁塔路南段99号
  • 邮编:710054
  • 邮箱:ctad@vip.163.com
  • 电话:029-85522163
  • 国际标准刊号:ISSN:1673-629X
  • 国内统一刊号:ISSN:61-1450/TP
  • 邮发代号:52-127
  • 获奖情况:
  • 《CAJ-CD规范》执行优秀期刊
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:21263