本项目采用生物信息学、数理统计和模式识别的理论与方法,开展微小RNA基因的识别、与选择性剪接调控的关系及其进化起源等重要问题的研究。采用基于统计学习理论的方法对真核生物基因可变外显子和内含子区的微小RNA基因进行计算机识别,通过Northern杂交技术进行分子生物学验证,并进一步利用生物信息学技术预测微小RNA基因的作用靶标,构建微小RNA基因的数据分析平台。利用在可变外显子区发现的微小RNA基因及其作用靶标,研究微小RNA基因与选择性剪接调控之间的关系。通过比较基因组学和进化树的构建等,开展微小RNA基因的起源和进化分析,探索RNA调控体系的起源和进化机制。微小RNA基因的研究是当前生命信息技术的前沿热点,已连续3年(2001-2003)被《Science》周刊评为全球十大科学进展之一,本项目的完成将有助于揭示微小RNA基因在生命调控信息系统中的规律和作用,具有重要的科学意义。
在本项目的资助下,主要开展了以下几个方面的工作:1)从已知的微小RNA基因中提取结构特征;2)利用支持向量机的理论与方法,开发出不依赖于比较基因组学的微小RNA基因从头预测算法TriSVM,TriSVM能够用于哺乳动物、昆虫、拟南芥等多个不同进化地位的物种中,识别率可达90%以上。利用开发出的TriSVM算法,在家蚕基因组序列中开展了微小RNA基因识别的后续工作;3)根据序列和二级结构的保守特征,开发了miRalign程序,利用此程序从岗比亚按蚊中发现了59 个新的微小RNA基因;4)从果蝇、蜜蜂和家蚕等昆虫的基因组中发现了99个微小RNA基因,并利用蜜蜂为材料,利用RT-PCR技术进行验证;5)充分利用大量的EST数据,对哺乳动物微小RNA基因的初始转录本及其表达进行分析,并从人的EST序列中发现了118个可能的非编码RNA基因;6)分析了蛋白编码基因的可变加尾事件对微小RNA基因调控的影响。结果表明,由于可变加尾事件的发生,导致了3'UTR区靶标位点的完全丢失,从而"躲避"了微小RNA基因的调控;7)从果蝇、家蚕等昆虫基因组中预测了与非编码RNA加工密切相关的piwi蛋白基因