阐明基因转录调控与转录后调控机制是后基因组时代的研究热点。microRNA是转录后调控基因表达的一类重要非编码RNA,近年来,生物学家揭示了许多microRNA的生物特性及其与疾病的关系,但对microRNA初始转录产物特性的研究进展缓慢。CHIP-SEQ数据的出现,为发展生物信息学方法,预测microRNA基因的启动子及转录因子结合位点,从而更好地阐明初始转录产物的生物学特性奠定了基础。本课题依托RNA聚合酶Ⅱ及组蛋白各种修饰的 CHIP-SEQ数据,研究基于CHIP-SEQ数据的启动子区域表示模型,设计模式参数学习算法在microRNA上游区域预测启动子,分析启动子基因组特征及转录因子结合位点;开发microRNA启动子预测软件及数据库系统,完善对microRNA初始转录产物的注释。本课题成果将为生物学家研究microRNA基因结构及microRNA中潜在的基因调控机制提供有力支持。
miRNA;RNA Polymerase II;Promoter;CHIP-SEQ;Transcription Factor
microRNA(miRNA)是一类重要的转录后调控基因表达的非编码RNA,大约50% miRNA位于编码基因的内含子中,其它位于基因间区域或者已注释基因的反义链上。内含子miRNA的转录受控于它们的宿主基因的启动子,但是对于基因间miRNA的初始转录产物的特性基本上还是未知的,尤其是miRNA的启动子区域的识别依然是个难题。本课题利用已知蛋白质编码基因转录起始位点区域的RNA聚合酶ⅡCHIP-SEQ数据,构建CHIP-SEQ数据在启动子区域的表示模型,设计最大似然法与粒子群优化算法相结合的启动子区域学习算法,学习CHIP-SEQ 数据在注释基因转录起始位点区域的模式,根据此分布模式对miRNA的上游区进行搜索,预测相关miRNA启动子。算法在乳腺癌和宫颈癌RNA聚合酶ⅡCHIP-SEQ数据集中,分别预测出72和83个miRNA的启动子,经过基因组分析,这些启动子序列有高度的保守性,大部分启动子与CpG岛重叠,而且组蛋白修饰的信号特征也与蛋白质编码基因的启动子类似。在宫颈癌细胞中预测的miRNA启动子上,我们分析了转录因子STAT1对miRNA的调控功能,并找到了STAT1的协作因子AP1 和 C/EBP,并构建转录因子与miRNA的调控网络。课题组发现在一些双向启动子区域,RNA聚合酶II呈现双峰的分布,这意味着在双向启动子区域有两个独立的启动子。我们将单个启动子的CHIP-SEQ 数据的表示模型扩展为双启动子模型,提出了一个双向启动子的调控区域识别算法。在宫颈癌细胞系里,识别出249个双启动子和1094个单个启动子,其中76个启动子只覆盖了正链的基因,86个启动子只覆盖了反链的基因,932个基因覆盖了两个基因。基因表达数据显示单个启动子调控基因表达具有位置偏好型,STAT1更愿意结合具有启动子特征的调控区域。课题在执行过程中,已发表学术论文9篇,其中SCI检索5篇,EI检索2篇,目前在投论文2篇。课题组2009年10月在 “CAMDA 2009” 国际会议上获得唯一奖项“Best Presentation Award”,文章被推荐到PLoS One期刊上并在2010年发表。2011年此篇文章获得第十二届黑龙江省自然科学技术学术成果奖二等奖。课题组所在实验室目前培养参与本课题工作的博士研究生2名,在读博士研究生1名;培养硕士研究生3名,在读硕士研究生3名。