基于高通量基因mRNA深度测序新技术,从全基因组水平应用生物信息学方法分析海量测序数据,建立全基因组mRNA植物APA位点数据集;对基因启动子区、5'与3'非翻译区、外显子区、内含子区及非基因区,考虑正向与反向转录,提取各区域poly(A)信号模式,建立分析植物mRNA转录组的统计机器学习模型及算法;重点研究全基因组水平的APA转录后修饰对基因表达的影响,分析不同条件基因经正向与反向转录形成的mRNA产物;将模型算法分析与生物实验结合,研发集高通量mRNA深度测序序列预处理及APA位点的提取、表达水平标准化、差异选择分析、信号模式识别与预测结合的可视化工具,达到有效辅助生物实验的水平,完善植物基因组注释及研究mRNA选择性加工机制对基因调控的影响。此研究计划,有利于加深对植物转录组编码的真实范围理解,对于植物基因组注释、内含子可变剪接、新基因预测、基因表达调控研究有重要生物学与信息学意义。
alternative polyadenylation;post-transcriptional regulation;recognition model;genome annotation;visualization
多聚腺苷化[poly(A)]及选择性多聚腺苷化(APA)是基因表达调控的重要途径,对剪切、转录终止及翻译起关键作用。本项目基于高通量基因mRNA深度测序新技术,从全基因组水平应用生物信息学方法分析海量测序数据,建立全基因组mRNA植物APA位点数据集,重点研究全基因组水平的APA转录后修饰对基因表达的影响,分析不同条件基因经正向与反向转录形成的mRNA产物,最终开发用于高通量数据处理及APA分析的生物信息学平台。本项目从转录组水平系统研究APA机制,有助于深入理解全基因组转录后调控及基因表达调控,并促进调控真核生物mRNA多聚腺苷化过程的分子、生物及进化机制的研究。取得的研究成果已以系列论文的形式在国内外重要的学术刊物上发表,开发的可视化分析软件及分析平台已采用网站方式向同行公开使用。在人才培养方面,本项目培养了生物信息学领域的多名研究生与博士生,开拓了多条培养渠道,支持他们参加国际会议和出国合作学习交流,采用多种方式让学生能高质量毕业并有好的去向选择。在论著方面,本项目已经支持发表了30篇SCI论文及多篇EI论文。在网站平台方面,顺利搭建了公开发表了用于poly(A)研究的VAAPA平台(http://bmi.xmu.edu.cn:8001/vaapa)、PASPA平台(http://bmi.xmu.edu.cn/paspa),以及PlantOrDB(http://bioinfolab.miamioh.edu/plantordb)平台。这些平台将为有关poly(A)相关的分析提供丰富的资源及有助于生物实验筛选高质量的候选基因或位点,促进APA机制的研究。