"从头预测"方法是目前挖掘非编码RNA的主要方法。由于"从头预测"方法需要利用机器学习中的分类器,而目前的分类器不能较好地处理非编码RNA识别中的正反例不平衡现象。因此,本项目提出了基于"投票机制"的不平衡数据处理方法,并结合有效的特征,实现在基因组、EST和下一代测序技术得到的数据中挖掘microRNA和snoRNA。通过对这两种不同特点的非编码RNA进行研究,期望能够为其它的非编码RNA挖掘方法提供借鉴。本项目拟(1)提出基于投票机制的不平衡数据分类方法;(2)开发可以处理不同类型数据的microRNA和snoRNA的挖掘方法和系统;(3)在海洋类非模式生物中挖掘10条以上新的非编码基因;(4)发表SCI期刊论文1-3篇。
microRNA;ensemble learning;genome annotation;;
“基于投票机制的非编码RNA挖掘方法研究”(编号61001013)是国家自然科学基金青年基金项目,研究期限为3年。本项目目标是研究和发展集成学习算法,并应用于非编码RNA、尤其是microRNA的挖掘中,重点在于提高microRNA挖掘的准确率并降低假阳性,同时研究基于投票机制的集成学习方法,争取用于解决更多的生物信息预测问题。 经过了3年的努力,项目组在microRNA挖掘和集成学习方法上都取得了重要成果。项目组提出了循环优化反例集的思想,提高了人类microRNA挖掘的准确率,并在家蚕中挖掘到全新的microRNA,其中3条被权威数据库miRBase收录。在集成学习方法的研究中,项目组提出了通过聚类和循环添加选择基分类器的策略,并开发了相应的软件libD3C应用于若干生物信息学问题中,取得了良好的效果。 本项目共发表论文40篇,其中SCI收录17篇,EI收录10篇,获得软件著作权10项,毕业研究生6人,并获得了基金委的青年-面上连续资助项目。