位置:成果数据库 > 期刊 > 期刊详情页
基于 TIGA_S4VM 改进算法的蛋白质序列识别方法
  • ISSN号:1672-3961
  • 期刊名称:《山东大学学报:工学版》
  • 时间:0
  • 分类:Q31[生物学—遗传学]
  • 作者机构:[1]上海海事大学信息工程学院,上海201306
  • 相关基金:国家自然科学基金资助项目(61003093)
中文摘要:

针对安全的半监督支持向量机( safe semi-supervised support vector machine,S4VM)存在参数选择盲目性、正负样本比例不平衡等问题,建立了基于改进的TF-IDF( term frequency-inverse document frequency, TF-IDF)、遗传算法( genetic algorithm, GA)和S4VM的蛋白质序列识别方法TIGA-S4VM。利用改进的TF-IDF算法提取出蛋白质序列中的特征项,将各个特征项在蛋白质序列中出现的频率归一化后作为识别模型的特征值,并结合GA以及S4VM对蛋白质序列进行识别。实验结果表明,TIGA_S4VM优于其它5个识别方法,即使在训练样本率较低时,也能有效地识别蛋白质序列。

英文摘要:

In order to effectively deal with the choice blindness of parameters and unbalanced class sizes, TIGA-S4VM, a protein sequence identification model was developed and trained using safe semi-supervised support vector machine (S4VM) based on improved TF-IDF algorithm and Genetic Algorithm (GA).LBTF-IDF, the improved TF-IDF algo-rithm, was put forward in this model for extracting the protein sequences′features.After the normalization of features′frequencies, the results were taken as the characteristic values for classifier.Combining LBTF-IDF, GA and S4VM, the mixed strategy was used to identify the protein sequences.Experiment results showed that the method was superior to other five classification methods and could get good classification performance with reduced training set.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:工学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:山东大学
  • 主编:李术才
  • 地址:山东济南市经十路17923号
  • 邮编:250061
  • 邮箱:xbgxb@sdu.edu.cn
  • 电话:0531-88396452
  • 国际标准刊号:ISSN:1672-3961
  • 国内统一刊号:ISSN:37-1391/T
  • 邮发代号:24-221
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:6258