后基因组计划最大的挑战之一是寻找复杂疾病的相关基因,并进行基因功能鉴定。本项目针对高通量基因表达谱数据的高维、高噪、高相关(冗余)与有限样本等特点,致力于研究复杂疾病的特征基因识别及其特征基因相关网络建立的新方法与新技术。并结合GeneOntology和KEGG代谢通路等各种功能分子生物学数据库的信息资源,预测并解释复杂疾病相关特征基因的功能及特征基因网络互作关系。并将新方法与新技术应用于信息资源
项目按原计划进行,我们建立了"特征基因"与"疾病类别"和目标靶基因的概念。基于基因表达谱高维数据,我们系统研究特征基因数据挖掘算法与分析策略,提出基于决策树特征基因识别的EFST及特征基因和基因表达谱模式识别分析结果稳定性的评价测度,根据特征基因识别EFST方法识别的不同特征基因群,定义特征基因的关联强度,构建特征基因相关网络和时间延迟调控网络TDGRN模型,并应用于结肠癌、白血病等疾病的基因表达谱数据,识别结肠癌、白血病等疾病的相关基因。研究基于基因表达多基因挖掘方法,研究特征基因在网络中的互作模式关系及生物学意义和基因网络核心结构团的挖掘技术,完成基因表达谱特征基因挖掘技术和基因网络重建的分析系统,并研究了周期性表达基因之间的表达相关性,并扩展研究工作到研究疾病靶蛋白、靶通路的模式识别生物信息学方法。主要成果发表在国内外著名生命科学杂志《Nucleic Acids Research》(2006年影响因子7.26)、《Genomics》、《中国科学》等上,项目研究期间共发表科研论文47篇,完成期刊论文34篇,会议论论文13篇,其中SCI收论文28篇,累计SCI IF 45.61。