本项目将针对meta-analysis方法应用于大规模微阵列数据分析所面临的四个重要问题进行研究,并提供解决方案。首先,针对微阵列实验复杂性、基因芯片差异性和数据规模性等特点,研究数据收集、筛选和处理的准则,及整合数据的同质性的统计检验;第二,异于传统的整理文献的meta-analysis方法,本项目侧重其定量分析技术,研究微阵列meta-analysis方法中四类指标的运算性能和计算复杂度等,为算法选择提供研究依据;第三,对传统meta-analysis方法中权重分配进行调整,研究影响微阵列数据的特殊因素,提出新型权重分配方案,平衡整合数据的组内和组间偏差;第四,研究meta-analysis所识别的特征基因在前列腺癌预测诊断方面的应用,提出新型临床分析模型。本项目将致力于meta-analysis具体技术研究,保证其在大规模微阵列数据组分析中的正确性、有效性和实用性。
meta-analysis;microarray chips;microarray data;gene expression;prostate cancer
在国家自然科学基金的资助下,我们顺利完成了项目书中各项工作和目标。通过应用meta-analysis统计方法综合分析海量的微阵列数据及其相关研究成果,针对其应用中的重要问题进行深入探讨和研究,主要集中于meta-analysis具体技术研究,保证其在大规模微阵列数据组应用中的正确性、有效性和实用性。我们首先就微阵列数据meta-analysis方法中数据收集的原则和同质性检验进行研究,比较不同统计指标对最终特征基因选取的影响,为算法推荐提供了依据。主要采用平滑技术,先验概率及相关贝叶斯技术等统计方法调整不同微阵列基因表达数据中芯片内部、基因之间和研究实验组之间的数据偏差。就统计指标方面,我们采用MAP和Venn Mapper等方法构造0-1矩阵,并计算收集数据分析结果中的t、F和 p值,构造了比较有效的分层模型方法。其次对选取微阵列meta-analysis 方法中最优权重分配方案进行研究,确保应用meta-analysis方法处理复杂微阵列数据时,所得到的结论更加客观可靠。不同于相等权重分配方案,我们考虑微阵列数据的特殊影响因素和数据特点,主要借鉴生物信息数据库提供的一些文献搜索的结果,采用三角形隶属度函数分配权重。所提出的新型方案不仅兼顾个体研究的样本量和误差等因素,甚至对每个点样基因都进行具体因素分析,来分配特别权重。最后,进行了实例分析,推广大规模微阵列数据meta-analysis方法在前列腺癌诊断预测方面的应用。针对原发性前列腺癌的微阵列基因表达数据和相关成果进行收集和整理,为进一步结合临床指标和基因特征构造诊断模型做基础。在前列腺癌诊断中通常采用的临床指标包括PSA增幅、MRI和超声检查、Gleason水平、年龄和ERG检测等临床特征的基础上,我们创新性地采用了meta-analysis方法设计虚拟实验,以前期的研究成果为基础识别出了具有综合性的基因特征。采用两类特征构造了logistic模型对,前列腺癌进行诊断预测和Cox模型进行生存数据分析。在基金资助下,共发表了期刊、会议论文和专利软著等成果二十余项,其中SCI索引5篇,申请软件著作权两项和专利一项等。课题组主要成员积极参加了相关学术会议,提高了学术水平,其中博士毕业答辩一人,期间入学在读博士一人。并在我校成功举办了一次统计学术会议。我们还加强了国内外合作交流,多次邀请国内和国外专家进行访问交流。