大量研究表明遗传变异可导致癌症的发生,而表观遗传修饰改变引起基因组不稳定亦是癌症形成的显著特征。通过遗传与表观遗传双重信息挖掘癌症相关基因及功能是理解癌症发病详细机制的途径之一。本课题基于DNA甲基化异常会直接或间接诱发遗传学变异而导致癌症,利用下一代测序技术产生的全基因组范围DNA甲基化谱,构建统计分析模型和定量模型筛选差异甲基化区域;并从系统生物学角度基于模式识别的方法,应用组学水平的高通量遗传与表观遗传谱数据,识别癌症(如卵巢癌,胶质瘤,结肠癌等)甲基化异常基因及受累通路,提取癌症表观遗传异常相关的特征,挖掘遗传与表观遗传修饰的相互作用模块,从全方位、多角度地探索癌症的发病机制。识别癌症异常甲基化区域/基因﹑(表观)基因组与基因的模块﹑ 功能(基因组)分析,开发提取不同层面导致癌症表观遗传特征改变的应用软件,有助于发现癌症诊断和治疗的生物标记物。
Feature extraction;High throughput information;Cancer;Epigenetic abnormalities;Model
随着高通量测序技术的不断发展,从全基因组水平研究表观遗传修饰促进了癌症发生发展机制的揭示。越来越多的研究表明表观遗传变异可导致癌症的发生,而表观遗传修饰改变引起基因组不稳定亦是癌症形成的显著特征。在国家自然科学基金面上项目(融合高通量信息的癌症表观遗传异常的特征提取技术)的资助下,本课题整合下一代测序技术产生的全基因组范围的组蛋白修饰谱和DNA 甲基化谱,先后构建了人类组蛋白修饰数据库(HHMD)和人类疾病甲基化数据库(DiseaseMeth);在这些数据基础上,我们基于信息熵和互信息理论构建统计分析方法和定量模型(QDMR and CpG_MPs)用于筛选基因组范围的差异甲基化区域和功能甲基化区域;进一步地将这些方法和模型应用到多种癌症的表观遗传谱数据,识别了癌症中异常的DNA甲基化区域,并基于加权蛋白质互作网络优选了癌症相关的甲基化异常基因及受累通路。结合遗传学特征,本项目提出了一个最大似然模型研究了单核苷酸多态(SNPs)和DNA甲基化对基因表达的协同调控作用。此外,近来的研究发现许多发育相关的基因也是调控癌症发生发展的重要因素,作为课题的扩展,本项目以小鼠脑的发育过程为模型,通过定量的表观遗传修饰动态,探索了各种表观遗传修饰协同调控基因表达的功能作用。总之,通过大量的信息学研究,本项目开发提取不同层面导致癌症表观遗传特征改变的应用数据库及软件,提取了癌症表观遗传异常相关的特征,挖掘遗传与表观遗传修饰的相互作用模块,从全方位、多角度地探索癌症的发病机制,有助于发现癌症诊断和治疗的生物标记物。