高通量DNA微阵列技术产生了海量基因表达数据。传统方法缺乏对该类新型数据特点的考虑,在分析中存在着一些问题。围绕如何设计符合基因表达数据特点的数据分析模型和高效算法,本课题展开了广泛、深入的研究,主要侧重基于局部模式特征的共调控/表型基因聚类技术,分别提出了基于编码和FBLD策略的最大子空间共调控基因聚类模型及算法、基于深度优先搜索的"噪音容忍"最大近似子空间共调控基因聚类模型及算法、基于改进枚举树的子空间表型基因聚类模型及算法、基于分枝界定策略的表型基因投影聚类模型及算法、基于局部封闭相似性和"先剪枝"思想的同质三维微阵列基因聚类模型及算法、基于"选择性跳跃"策略的异质三维微阵列共调控基因聚类模型及算法等。研究结果表明,提出的基于局部模式的分析模型和算法执行效果良好,能有效弥补传统方法的不足,高效、准确地发现许多新的、具有实际生物意义的共调控/表型基因聚类,有很高的理论研究价值和广阔的应用前景。三年来,共发表学术论文57篇,申请专利3项,荣获"2010年全国百篇优秀博士学位论文"提名并入选"2011年教育部新世纪优秀人才"。培养博士生5名,硕士生7名,资助28人次参与国际交流。
英文主题词local pattern; subspace clustering; projected clustering; co-regulated gene; phenotype-related gene