受人类基因组计划、人类基因组单体型图计划和千人基因组计划等的推动,以及飞速发展的基因测序技术的促进,大量与人类性状及复杂疾病关联的SNP被发现,对其进行分析是生物信息学目前所面临的巨大挑战和机会。本项目将在整合人类基因组内含子数据和SNP数据基础上,研究人类基因组内含子中SNP的特征,以发现多个疾病与多个SNP相互作用的方式;结合SNP信息建立染色体内含子的复杂网络模型并分析其特征,从SNP角度揭示人类基因组内含子结构的新特征以及染色体之间的差异性;分析SNP与内含子之间的关系,挖掘新的对SNP优选有贡献的特征以及挖掘新的基于SNP的剪接信号,从而发现影响SNP优选和内含子剪接的新方式;基于SNP与内含子之间的关系分析,提出内含子结构分析、SNP优选和剪接位点识别的新方法;并对具体疾病SNP优选和分析,发现新的区分疾病状态的特征及表示方式,为疾病风险因子分析及相应的基因检测等提供新的依据。
single nucleotide polymorphism;genome wide association study;splice site identification;prediction and diagnosis of disease;
近年来,随着生物测序技术的迅猛发展,各类生物相关数据呈现指数增长。越来越成熟的测序技术使得在分子层面上对人类内各种调节机制以及形状和疾病的发生等进行研究成为可能。传统的分析研究方法由于大量人力财力的消耗已经不能适应,通过计算机人工智能快速有效的解决生物相关问题已经成为大势所趋。本课题的目标是在全基因组范围内,在整合人类基因组的内含子相关数据和大量已知的SNP数据及其基因表达数据的基础上,分析SNP与内含子之间的关系,提出内含子结构分析并挖掘新的剪接信号和剪接识别算法;通过对SNP、基因和疾病三者之间进行全基因组关联性研究分析,以发现多个疾病与多个SNP之间或者多个基因之间的相互作用关系,以及多个基因之间的调控关系,在分子层面上探索复杂疾病的致病机理,从而为复杂疾病的预测、诊断以及治疗提供新的方法和依据。课题研究四年来我们一直围绕着该目标进行,按计划完成了研究工作,在基于SNP的疾病关联性分析研究、基于基因表达的疾病关联性分析、基因调控网络的研究分析、剪接特征提取和剪接位点识别算法研究、绑定位点识别算法研究以及单体型组装问题的相关算法研究等方面取得了一系列研究成果。四年共发表学术论文30篇,包括英文期刊论文8篇,中文核心期刊论文3篇,国际会议论文18篇,中文会议论文1篇,其中SCI检索8篇,EI检索28篇,ISTP检索16篇。四年共培养硕士研究生9名,博士研究生4名。