现在药物研发中60~70%的目标蛋白是G蛋白偶联受体(GPCRs),但关于它们的结构和功能却了解得相对较少。如何科学有效地利用现有数据资料,快速、高效、准确地筛选出疾病相关GPCRs,成为目前急需解决的问题。本研究在前期工作基础上,以蛋白序列数据为研究对象,探讨GPCRs功能预测的高通量分层分类模型。运用信息融合理论,对来自不同信息源的信息,构造不同的特征集,通过特征层和决策层的信息融合,建立有效的蛋白序列编码方法;在此基础上,利用决策树算法构建GPCRs分层分类模型,探讨模型性能评价指标,建立分层分类模型的科学评价方法;最后,运用智能优化算法对模型参数进行优化,建立最优分层分类模型。并依据模型开发相应的web应用软件,将其应用于人类等模式生物基因组的数据挖掘研究,检验其效能,为GPCRs功能和药物设计研究提供支持。本课题对于细胞生物学研究、疾病预防和治疗及新药开发等具有重要研究价值。
G-protein-coupled receptors;multiple information fusion;hierarchical classification;proteomics;
现代药物研发中60~70%的目标蛋白是G 蛋白偶联受体(GPCRs),但关于它们的结构和功能却了解得相对较少。如何科学有效地利用现有数据资料及计算机方法,快速、准确地筛选出疾病相关的GPCRs,成为目前急需解决的问题。本研究在前期工作基础上,以蛋白质序列数据为研究对象,提出了GPCRs 功能预测的分层分类模型,该模型目前可以在5个水平上对GPCRs进行识别和分类,分类准确率要优于或等于现有其他方法。课题组首先运用信息融合理论,对来自不同信息源的信息,构建了不同的特征集,通过特征层和决策层的信息融合,建立了有效的蛋白序列编码方法;在此基础上,利用最近邻算法和支持向量机构建GPCRs分层分类模型,依据模型性能评价指标,对建立的分层分类模型进行了科学评价;最后,运用优化算法对支持向量机的模型参数进行优化,建立了最优分类模型。为了便于研究人员使用,课题组还根据模型开发了相应的计算机应用软件,该软件可应用于人类等模式生物蛋白组数据的挖掘研究,为GPCRs 功能研究和药物开发提供有用信息。本课题研究成果对于研究人员了解GPCRs功能、开展疾病预防和治疗,以及新药开发等都具有重要价值。另外,我们还将提出的方法用于其他蛋白质受体的功能预测研究,取得了很好的预测效果,发表了相应的SCI论文。 该课题按照原定计划顺利完成了各项研究任务,取得了预期研究成果,主要有1、发表署名受本项目资助SCI论文2篇,影响因子均在2分以上;另外一篇SCI论文已目前正在审稿中;1篇论文目前已被他引13次;2、开发GPCRs分类预测计算机应用软件1套,该软件已获得国家版权局计算机软件著作权保护;3、部分研究成果作为重要组成部分用于申报上海市科技进步一等奖,课题负责人排名第二;4、课题负责人入选校“5511”优秀青年人才库,获上海优秀青年教师科研专项资金资助,获国家留学基金委“青年骨干教师出国研修项目”资助赴美国耶鲁大学留学1年。