现代仪器分析数据的一个显著特点就是变量(波长或质荷比等)的数量远远超过样本的数量,也就是统计学家们所称的"small n, large p"问题。为防止过拟合和建立一个易于解释的可靠的数学模型,变量选择和模型评价变得尤为重要。然而,从成千上万的变量中选出有信息的变量和模型评价是一个具有挑战性,也是化学计量学研究中的基础性的问题,均尚未得到有效解决。本项目拟基于本研究小组新近提出的模型集群分析技术,建立高维数据的变量选择和模型评价新方法,能在很大程度上克服"组合爆炸"问题,快速可靠地从众多候选变量中筛选出有信息的变量,并对基于所选变量建立的数学模型进行可靠性评价。最后,将所建立的新方法用于现代组学临床数据(基因组数据,蛋白组数据和代谢组数据)的分析,以期能够为生物标记物的发现奠定方法学基础,并能为临床实践,如疾病诊断和预测提供新方法。
chemometrics;model population analysis;variable selection;robust method;model evaluation
本项目主要针对我们自主提出的模型集群分析思路,进行了系统的化学计量学基础及新算法研究,经过三年的研究,已在以下三个方面取得显著成果1)对模型集群分析的框架进行了科学定义,提出四个空间, 即样本空间、变量空间、参数空间和模型空间,突出了核心,奠定了其理论基础;2)针对化学和生物学中的高维数据(包括化学建模、代谢组学、蛋白组学等),在稳健分析、变量选择及模型评价等方面,发展了一系列有影响的化学计量学的新方法,取得显著成果;3)将本项目成果应用于复杂体系的仪器分析数据解析,说明本项目成果不但为化学建模,解决代谢组学与蛋白组学等领域的分析难题提供了新的化学计量学算法,而且为化学计量学的后续发展提供了理论与实践的框架和思路。