以以C-alpha 原子伪键表示蛋白质三维骨架,结构可由折角、扭角方便地描述。四肽段是坐标和角度彼此一一对应的最小基本单元。基于四肽段的三角度代表点在相空间的密度分布对构象态作聚类,可获得离散构象态码。构象态码将三维结构转化为一维字母序列。借助结构相似蛋白家族库FSSP,可收集构象态码的配对组合,通过计数计算构象态码配对概率与随机组合概率之比的对数,可构造构象态码的替代矩阵。于是,序列比较的所有成熟算法可略加修正后直接用于快速比较蛋白三维结构。作为构象态码得最重要应用,我们开发了基于构象态码的蛋白结构快速联配工具。采用构象码及其替代矩阵,可以不必用较慢的几何比较而快速找出蛋白结构间有意义的二结构相似片段对或多结构相似片段区块,而且,替代矩阵计分可用于对局部相似性排序,再由之出发确定叠合蛋白结构的变换矩阵,检验全局相似性。由于相似性排序十分有效,检验少数几个排序在前的局部最优,便可找到全局最优。我们的新算法快速且高精度,尤其是对于多结构联配,经大规模测试和评估证实,可比目前公认较好的算法快二到三个量级,两种算法均被收入维基百科“结构联配软件”词条。
英文主题词Protein 3D structure; Protein conformational codes; Protein structure alignment