代谢组学数据的信息提取分析是代谢组学研究的重要内容。本项目拟依据高通量代谢组学数据的高维、复杂特性,针对代谢组学数据预处理、解析不确定性的现状,开展数据预处理、重叠色谱峰解析、区域分辨、生物标志物簇的特征提取、代谢指纹模式的聚类分析、判别和相关分析、数据整合算法研究,发展基于广义二维相关分析和循环投影的数据分辨、模糊相关和邻域交叠概率的标志物提取、空间相关加权和量子混沌网络模式识别、混合分布估计的数据整合等一系列代谢组数据解析的新型生物化学计量学方法,建立高通量组学数据相关的生物信息学理论与方法,系统分析神经细胞退行性老年痴呆、心血管疾病、肝癌等疾病的代谢组数据,开展代谢标志物簇识别、代谢表型变化与外源刺激关系、疾病诊断、亚型识别、药物筛选、药效及毒性评价等方面的应用研究,为系统生物学研究和生物系统的全面深入阐释提供有效而实用的方法学和技术基础。
对代谢混合物的复杂光谱数据进行有效的信息提取是代谢组学研究的重要内容。本项目依据高通量数据的高维、复杂特性,发展了一系列代谢组学数据解析的新型生物化学计量学方法。建立了适应度判别式的生物标志物特征提取方法,提出了改进的高斯混合模型和高斯混合回归方法,为筛选相关的标志物特征提供了新手段;发展了杂交粒子群优化的均值聚类算法、基于基因表达式编程的投影判别分析法和基于人工蜂群算法优化的高斯混合模型和回归方法,为代谢组指纹模式分析提供了新方法;建立了基于粒子群优化的自适应模糊c均值方法同时提供分类和半定量结果;将所提出的算法成功的应用于代谢组学数据、食品分析等多种应用研究,为代谢组学分析提供了有效的技术支持,具有广阔的应用前景。