位置:成果数据库 > 期刊 > 期刊详情页
基于词典法和机器学习法相结合的蛋白质名识别
  • ISSN号:1001-4160
  • 期刊名称:《计算机与应用化学》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学应用数学系,辽宁大连116024, [2]大连理工大学计算机科学与工程系,辽宁大连116024
  • 相关基金:国家自然科学基金资助项目(90103033,60373095)
中文摘要:

生物实体名识别对生物医学文献的信息抽取有重要的意义。本文针对如何识别蛋白质名进行了有益的尝试,主要采用了基于词典的方法,其中运用了近似搭配算法和首词查询的方法进行蛋白质名识别,同时结合机器学习方法训练了一个分类器来过滤候选词以提高识别的准确率。

英文摘要:

Identification of biomedical entities is one of important techniques to extract information from biomedical documents. This paper proposes an effective model based on dictionary to identify protein names. The approximate string searching method and first name searching are used to identify the candidate protein names, and a Naieve Bayes classifier filtering the candidates is applied to improve the accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机与应用化学》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学院
  • 主办单位:中国科学院过程工程研究所
  • 主编:王基铭
  • 地址:北京中关村北二街1号
  • 邮编:100080
  • 邮箱:jshx@home.ipe.ac.cn
  • 电话:010-62558482
  • 国际标准刊号:ISSN:1001-4160
  • 国内统一刊号:ISSN:11-3763/TP
  • 邮发代号:82-500
  • 获奖情况:
  • 1991年中国科学院优秀期刊三等奖,2000年中国科学院优秀期刊三等奖,1998年中国科技期刊影响因子工程类第二名,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:9060