分子生物学已经积累了且继续产生着大量的数据。这些数据维数高、噪声强、结构复杂、相依性强、污染严重、数据类型也很复杂。从这样的海量数据中提取新的生物学知识是当今科技界面临的巨大挑战之一,也是发展统计学的极好机遇。完全由我国自主测定的籼稻基因组数据是宝贵的资源财富。本项目拟以该数据为主要背景,研究若干重要的生物学问题和其中的统计方法,包括基因识别中剪切位点及其他调控基因表达信号的建模和预测;基于mRNA抽样数据和微阵列数据的基因表达数据分析;基于单核苷酸多态性研究其邻近核苷酸效应和单体型结构;并在上述分子生物学问题的研究过程中,吸取统计学和计算机科学两类方法的长处,改进和发展高维复杂数据的深度函数、离群点检测、以及稳健聚类和判别等统计方法和有关的计算方法。
本项目研究分子生物学中的一些统计建模与分析方法,以及中小样本下的统计推断。对于剪切位点识别、模体检测、基于EST样本推断基因表达轮廓,以及寻找遗传疾病的关联基因等问题,我们提出了若干新的模型和算法。这些结果在一定程度上改进了现有方法,并应用于实际数据集的分析,效果良好。我们还讨论了与此相关的若干统计学问题,包括多元离群点检测、稳健判别分析、含离群点时的变量选择、多项分布次序参数的推断、统计深度函数的性质,以及封闭总体大小的推断等。关于中小样本下的统计推断,我们着重研究了信仰推断、鞍点方法、拟合优度检验以及它们的应用。