近几年随着表达谱芯片技术的日趋成熟,大量研究结果产生了海量的生物医学数据,如何从海量的生物医学数据中挖掘出有生物医学意义的知识与规律仍然是当前生物信息学研究中所面临的挑战性问题。本项研究以肿瘤基因表达谱数据分析为基础,开展基因调控网络、肿瘤特征基因选择和肿瘤亚型识别研究针对基因表达谱数据的特点,综合利用计算方法、Huber鲁棒估计和流行学习给出一种基因表达谱数据相似性度量模型;为了有效地抽取肿瘤相关的分类特征以及选择肿瘤相关基因,设计一种具有明确生物意义的多标记学习算法来选择拥有最高分类准确率的特征基因子集,并构建数学模型进行性能评估;结合因子分析技术和网络分量分析算法构建肿瘤基因调控网络,研究肿瘤基因调控机理,进而发现重要的肿瘤相关基因;综合利用肿瘤特征基因及其调控信息,提出基于双向聚类的肿瘤亚型识别算法,为揭示肿瘤的发生发展机理及临床诊断与防治提供分子水平上的科学依据。
Gene Expression Data;Gene regulatory networks;Feature gene selection;Cancer Classification;
随着表达谱芯片技术的日趋成熟,大量研究结果产生了海量的生物医学数据,如何从海量的生物医学数据中挖掘出有生物医学意义的知识与规律仍然是当前生物信息学研究中所面临的挑战性问题。本项研究以肿瘤基因表达谱数据分析为基础,开展基因调控网络、肿瘤特征基因选择和肿瘤亚型识别研究。主要研究内容及成果有针对基因表达谱数据的特点,综合利用计算方法、Huber鲁棒估计和流行学习给出一种基因表达谱数据相似性度量模型;为了有效地抽取肿瘤相关的分类特征以及选择肿瘤相关基因,设计一种具有明确生物意义的多标记学习算法来选择拥有最高分类准确率的特征基因子集,并构建数学模型进行性能评估;结合因子分析技术和网络分量分析算法构建肿瘤基因调控网络,研究肿瘤基因调控机理,进而发现重要的肿瘤相关基因;综合利用肿瘤特征基因及其调控信息,提出基于双向聚类的肿瘤亚型识别算法,为揭示肿瘤的发生发展机理及临床诊断与防治提供分子水平上的科学依据。