非编码RNA 结构和功能的研究是分子生物学研究的热点问题之一。通过计算手段对于非编码RNA 的二级结构进行比对以及分类识别,是进行非编码RNA 功能分析的研究基础。在深入研究非编码RNA 二级结构特点的基础上,本项目将提出一种基于多相似度融合的非编码RNA二级结构比对和分类识别的计算模型。从非编码RNA结构比对的"alignment-based","semi-alignment-based"以及"alignment-free"三个层面出发,进行全面有效的相似度刻画。在此基础上,结合机器学习算法,针对于后续进行的不同识别方式(分类,聚类,排序)设计不同的相似度融合方法。以Rfam数据库所含有的已知类别的非编码RNA分子为数据集,进行模型的训练,优化以及测试,形成自动化的软件平台,从而为高通量的小RNA分子数据处理,基因组层面的小RNA识别,以及后续的结构和功能分析提供有效的计算支持。
ncRNA;structure alignment;similarity;data integration;small RNA design
非编码RNA结构和功能的研究是分子生物学研究的热点问题之一,特别是近期在长非编码RNA,环形RNA,RNAi以及CRISPR/Cas9的sRNA设计领域都需要对于RNA的结构进行计算分析。本项目在深入研究非编码RNA二级结构特点的基础上,重点关注于多相似度融合的机器学习算法设计,以及其在非编码RNA二级结构比对和RNAi、CRISPR/Cas9领域的小RNA设计这些层面的具体应用。项目从非编码RNA结构比对的“alignment-based”,“semi-alignment-based”以及“alignment-free”三个层面出发,进行全面有效的相似度刻画。在此基础上,结合机器学习算法,针对于后续进行的不同识别方式(分类,聚类,排序)设计不同的相似度融合方法,并且进一步探讨其在小RNA设计层面的应用,形成自动化的软件平台。作为课题的方法学层面的应用拓展,项目同时初步探讨了多相似度融合的算法在小分子药物虚拟筛选以及药物重定位领域的应用。