基因调控是生物功能的基础,对它的研究是基因表达数据分析的基本任务。由于各种调控通路可能会在不同的环境条件、不同的时间发生作用,而在不同的通路中会有各异的参与基因,所以对基因-条件-时间的3D基因表达数据聚类比传统的聚类或双向聚类分析更能全面、系统地阐明基因的调控机制。本课题拟提出从3D基因表达数据中挖掘功能相关模块的有效算法,重点关注以前研究中很少涉及的负相关模式的挖掘方法,并对拟南芥、酵母等模式生物的相关3D基因表达数据集进行分析,结合已有的转录因子和分子通路等数据,推导负相关模式发生的内在原因及模块所蕴含的基因调控机制。基因表达的负相关模式可能同疾病的发生、发展密切相关,因此,随着人类疾病相关的3D基因表达数据的丰富,本课题的研究结果可用于揭示疾病相关的生物通路,帮助确定生物靶标。
gene regulation;3D gene expression data;negatively correlation;bi-clustering;prediction
基因调控是生物功能的基础,对它的研究是基因表达数据分析的基本任务。目前有关基因-条件-时间或者基因-条件-样本的三维基因表达数据日益丰富,使深入了解特定条件下的基因的调控机理成为可能。本课题研究三维基因表达数据中的特定模式的挖掘与分析方法,重点关注其中负相关调控模式的挖掘与应用。我们首先提出了负相关模式(NCGS)的挖掘方法,结果表明该方法能挖掘出负相关基因数目均衡的最大NCGS;基于NCGS模块,并结合miRNA, TF等生物数据,我们进行了疾病和组织发育等特定生物过程相关的调控网络推导。我们利用挖掘出的模式和调控网络进行了癌症预后等方面的应用研究,取得了较好的效果。同时,我们对转录因子结合位点进行了预测研究,我们提出了更有效的预测特征和更加紧凑的样本表示方法,取得良好的效果。