非编码RNA无需翻译成蛋白质,直接以RNA形式行使生物功能,在表观遗传修饰、mRNA转录和降解、蛋白质运输和加工等重要环节发挥功能,同多种疾病以及肿瘤的发生密切相关。由于非编码RNA往往通过与各种蛋白质结合形成复合物来发挥功能,寻找这些同非编码RNA相互作用的蛋白质对于进一步的非编码RNA功能研究有着重要意义。目前通过生物实验技术高效而准确的测定非编码RNA与蛋白质相互作用还存在很多困难,因此发展非编码RNA与蛋白质相互作用的生物信息学预测算法已成为当务之急。本项目拟采用统计机器学习算法,从已知非编码RNA和蛋白质相互作用以及功能模体数据出发,构建非编码RNA同蛋白质之间的模体相互作用网络,研究非编码RNA和蛋白质相互作用在一级序列和空间结构上的特征,并以此为基础设计和开发非编码RNA与蛋白质相互作用预测算法。
Noncoding RNA;Long noncoding RNA;Noncoding RNA-Protein interact;;
非编码RNA无需翻译成蛋白质,直接以RNA形式行使生物功能,在表观遗传修饰、mRNA转录和降解、蛋白质运输和加工等重要环节发挥功能,同多种疾病以及肿瘤的发生密切相关。由于非编码RNA往往通过与各种蛋白质相互作用来进一步发挥功能,研究非编码RNA和蛋白质之间的相互作用对于进一步的非编码RNA 功能研究有着重要意义。本项目从已知非编码RNA和蛋白质相互作用数据出发,采用统计和机器学习方法研究非编码RNA 和蛋白质之间的相互作用。主要研究内容包括长非编码RNA数据以及长非编码RNA与蛋白质相互作用数据的收集整理和归类,长非编码RNA功能子集数据的预测和聚类,长非编码RNA与蛋白质相互作用结合位点的预测和分析三个部分。 三年来课题组成员围绕研究内容的三个方向做了大量研究工作,取得了不错的成绩,已发表SCI国际期刊论文4篇,总影响因子约27点。在数据收集方面,我们对我们研究组建立的非编码RNA数据库NONCODE以及非编码RNA与蛋白质相互作用数据库NPInter进行了重要升级,所收集数据量得到显著增加(NONCODE数据量从2.0版本的约20万条增长到超过40万条,NPInter数据量从1.0版本的约700条增长到超过20万条)。在长非编码RNA功能子集的预测、聚类和收集方面,我们利用长非编码RNA的表达数据构建非编码RNA与蛋白质之间的共表达混合网络,并以此为基础开发了长非编码RNA功能预测和聚类分析的新算法以及网络在线计算服务平台ncFANs。同时我们对长非编码RNA与人类复杂疾病的相互关系进行了深入研究和数据收集整理。在长非编码RNA与蛋白质相互作用预测和分析方面,我们通过系统分析最新的高通量RNA蛋白质相互作用检测技术RNAcompete数据,建立了针对长非编码RNA与蛋白质相互作用结合位点的RNA-Protein binding motif数据库。另外,我们还构建了通过整合基因间相互作用信息预测全基因组范围染色体片段相互作用的计算框架,为研究基因组水平的编码和非编码基因间的相互作用打下了基础。