在已有的人、鼠、牛、线虫、拟南芥等物种的可变剪接数据库的基础上,进一步完善疾病有关的、组织特异的可变剪接数据库等各类子库。在此基础上,完善我们在剪接位点识别问题中所提出的IDQD方法,根据mRNA剪接位点的保守性特征,发展剪接位点识别的新途径,进一步提高预测可变剪接位点的能力;对不同模式可变剪接的内含子长度、特征、结构,剪接位点附近序列的保守性进行信息学分析,统计分析可变剪接与物种进化的关联,在此基础上研究可变剪接的调节机制;进行癌症特异的剪接变体和正常剪接体的剪接位点及其调控序列的信息学分析,从而发现与乳腺癌、肺癌、肝癌等癌变相关的剪接变异体模式的特点,揭示其与肿瘤发生的关系,及在不同肿瘤中的表达特征和功能意义;系统解码可移动元素在mRNA可变剪接调控中的作用,进行可变剪接与可移动元素相关联的信息学分析,解析可移动元素与可变剪接之间的相互作用关系。
alternative splicing;nucleosome positioning;histone modification;Alu sequence;pre-miRNA
在模式生物的可变剪接数据库的基础上,进一步完善了与核小体定位和组蛋白修饰相关的各类子库。在此基础上,完善我们在剪接位点识别问题中所提出的IDQD方法。根据核小体定位序列和缺失序列中的碱基分布特征,对两类序列进行了区分,研究了核小体在人类基因组剪接位点邻近序列的分布方式,发现了DNA序列的核小体定位/缺失和RNA的刚性/柔性具有统计相关性;利用IMR90细胞系中的26个组蛋白修饰的ChIP-seq数据,Refseq中已知基因的注释信息以及ENCODE中的可变剪接数据信息,分析了组成性和可变的供体和受体端剪接位点组蛋白修饰丰度,发现剪接位点处存在组蛋白修饰富集区,并且和序列的保守性无关;根据MicroRNAs前体序列的碱基保守特征和二级结构特征,应用多样性增量 (ID)和支持向量机(SVM) 方法,以内含子区、外显子区、基因间区三类序列分别作为负集,对人类的pre-miRNAs进行分析和预测;利用非均匀指标对外显子化的Alu序列进行信息学分析,发现Alu序列可能具有八联体读码框架,根据Alu序列的碱基特征和保守性,对Alu序列进行了识别和分析。