代谢组学中的高维数据由于特征空间维数过高,传统优化搜索算法都很难在短时间内找到令人满意的特征子集,如何提高代谢组学的多变量数据分析性能,成为信息学专家和生物学家面临的新问题。以更加有效的高维特征选取方式,用较小的实验样本完成代谢组高维数据集的多变量分析是必然的选择。本项目是研究基于生物启发式Memetic算法的代谢组学高维特征选择算法,将建立基于生物启发式Memetic算法的高维特征选择框架,给出适合于代谢组学高维数据特征的过滤式可分解局部搜索、自生式编码、快速特征子集评估函数的设计方法,针对代谢组学中NMR图谱数据和一维/二维质谱数据的不同性质,实现通用高效的代谢组学高维数据特征选择系统,整体提高代谢组学高维数据的多变量分析性能。本项目将首次充分研究和利用Memetic算法高维特征选择的突出能力,将国际上代谢组学高维数据特征选择研究从传统的统计学优化拓展到生物启发式智能优化阶段。
Metabolomics;Bio-inspired Computation;Memetic Algorithm;High-demensinoal Feature Selection;
代谢组学中的高维数据由于特征空间维数过高,传统优化搜索算法都很难在短时间内找到令人满意的特征子集。如何提高代谢组学的多变量数据分析性能,成为信息学专家和生物学家面临的新问题。以更加有效的高维特征选取方式,用较小的实验样本完成代谢组高维数据集的多变量分析是必然的选择。 本项目是研究基于生物启发式Memetic算法的代谢组学高维特征选择算法,将建立基于生物启发式Memetic算法的高维特征选择框架,给出适合于代谢组学高维数据特征的过滤式可分解局部搜索、自生式编码、快速特征子集评估函数的设计方法,针对代谢组学中NMR图谱数据和一维/二维质谱数据的不同性质,实现通用高效的代谢组学高维数据特征选择系统,整体提高代谢组学高维数据的多变量分析性能。 本项目首次充分研究和利用Memetic算法高维特征选择的突出能力,将国际上代谢组学高维数据特征选择研究从传统的统计学优化拓展到生物启发式智能优化阶段。提出了启发式算子链MA特征加权算法、基于Memetic Computing的多变量联合熵特征选择算法等一系列方法,并应用于等位肝移植代谢组Microdialysis-HPLC质谱数据、人类2型糖尿病尿液代谢组NMR数据等的分析中,获得了优于现有技术的生物标志物提取结果。可有效支撑生物学及医学等领域的后续研究。