本项目的目标是研究高通量基因数据分析中的 Bayes 统计推断方法。高通量基因数据,如微阵列基因表达数据和单核苷酸多肽标记(SNP)数据等,因其变量维数远远大于数据个数、误差结构复杂等特点为传统统计的理论和方法带来了新的挑战和研究方向。Bayes 统计中先验信息的使用可以增加和综合信息,以及对数据进行平滑和降维,加之现在MCMC 计算方法已在很大范围内解决了Bayes 统计的计算困难问题,使得Bayes 统计尤其适合于对高通量基因数据进行统计建模和分析。本项目将首先从高通量基因数据分析中已广泛应用的线性模型和广义线性模型入手,发展稳健先验下的Bayes 和经验Bayes 统计推断方法并研究其性质,进而研究其在微阵列基因表达数据等高通量基因数据分析中的应用;对SNP 数据单体型概率的估计问题,将侧重研究多层Bayes 方法的应用并发展快速的计算方法。我们计划将这些方法应用于实际数据分析。
英文主题词High-throughput genetic data; linear model; generalized linear model; Bayes statistics