数据挖掘技术是生物信息学中的重要研究课题之一,研究大规模生物序列分析新算法和复杂的生物模型建模,在提供有商业价值的生物信息,科研启示和生物医学上极为有用。通常的数据挖掘方法不能处理在数据复杂程度,数据量和建模上都要复杂得多的生物数据。因此,发展有效的生物数据挖掘算法有重要的应用意义和理论价值。本项目将研究新陈代谢信号通路相关数据的采集,存储,建模和分析的理论技术和方法。信号通路中的激活跟抑制模式都非常重要,但后者因为较低的支持度易被忽略,因此挖掘算法需要搜索和考虑所有频繁的和非频繁的项集合。其次传统挖掘方法会产生大量规则,需要改进算法分组从中筛选出支持度比较大的频繁模式,避免有用规则丢失或冗余规则产生。该项目的主要目标是发现在外界刺激下蛋白激酶调控的功能和特征,包括研究对外界刺激诱导产生变化的调控机制,研究相关基因表达特征和相关基因结构功能关系。这些结果为疾病诊断和治疗提供了一条有效途径。
Data mining;signaling pathway;protein kinase;association rule;similarity
该项目主要完成了信号通路数据挖掘的理论框架、基于信号通路数据采集和建模的生物信息学数据库平台设计、数据预处理 (包括不同数据源数据分析和数据标准化)、和软件工具系统等方面的研究。已经按要求完成全部项目计划内的研究目标,并在研究范围,研究问题的深度,发表科研论文等方面超出了预期目标,提出了信号通路研究的新思路,为后续研究奠定了良好的基础。已取得的成果包括(1)提出新陈代谢信号通路相关数据的采集,存储,建模和分析的理论技术和方法。(2)对AMPK蛋白激酶相关论文检索筛选,通过使用关键词搜索NCBI公用数据库中收录的发表论文,从文本中提取有意义的调控数据。对抽取的数据进行形式化,格式标准化处理,建立蛋白激酶调控数据网络共享数据库。(3)通过数据离散化处理,找到合理的属性值划分区间,确保挖掘的准确性。设置约束条件有针对性的控制规则输出,从而帮助生物学家从发现的大量规则中快速的筛选出有真正生物意义的规则。(4)扩展和改编传统的关联规则挖掘,提出根据贝叶斯规则把规则表示成为 X → Y和一个概率矩阵 MY|X,发现蛋白激酶调控亚基之间关联的直观调控图。(5)信号通路中的激活跟抑制模式都非常重要,但后者因为较低的支持度易被忽略,因此挖掘算法需要搜索和考虑所有频繁的和非频繁的项集合。其次传统挖掘方法会产生大量规则,需要改进算法分组从中筛选出支持度比较大的频繁模式,避免有用规则丢失或冗余规则产生。(6)提出距离区间矢量的非编码RNA结构建模理论,并提出考虑子结构特征的相似性度量函数,从数量巨大的发现的二级结构中快速查找结构上相似的同源结构,从而确定相关功能。该项目主要研究单信号通路挖掘,但对相互之间复杂的调控网络机制没有充分考虑,项目负责人在后续研究中从生物学系统的角度,综合考虑信号通路中调控因子的相互作用,包括非编码RNA,蛋白激酶,蛋白质等激活因子和抑制因子,构建多条信号通路协同作用形成的复杂调控网络。