本项目基于机器学习和组合优化算法等信息理论,研究RNA结构预测与进化分析。主要针对目前信息方法准确度低、大豆序列数据兼有EST和基因组特性这两个问题,给出结合生物背景知识的字符串聚类算法,以提高敏感性和效率;建立适宜比较的RNA二级结构表示方法,并研究结合类别信息的结构预测算法,避免预测的盲目性;发展基于机器学习挖掘非编码RNA的方法,包括挖掘microRNA的多示例学习算法等;建立搜索无全基因组植物的RGA的方法,以挖掘PR基因;提出在EST序列中挖掘SNP位点的新方法,用于大豆优质育种;针对序列数据的比对情况,分别建立渐进式和基于quartet的进化关系构建方法,以适应处理大规模数据。通过与目前同类软件的比较研究、以及大豆分子生物学实验,验证以上信息方法的有效性。本项研究对开拓新的生物信息学理论和方法、开发实用的计算生物学软件系统和研究优质大豆都具有重要意义。
RNA structure prediction;evolutionary analysis;resistance gene mining;machine learning;soybean data
miRNA是一类长度为22-nt左右的非编码RNA,可与目的靶基因mRNA互补,介导转录后水平的基因沉默、降解靶基因,起下调目的基因表达的作用,研究表明其在植物生物胁迫与非生物胁迫过程中起重要作用。针对油料作物特别是大豆生物信息处理方法在miRNA和启动子挖掘软件存在的效率和学习能力较低以及功能分析滞后等问题,哈尔滨工业大学郭茂祖教授和东北农业大学李文滨教授领导的课题组,在国家自然科学基金重点项目“大豆RNA结构与进化分析的信息处理方法研究(编号60932008)”资助下,开展了miRNA前体分类和成熟体位置预测算法、生物进化树与进化网络重构算法、抗性基因挖掘算法以及相应的大豆生物鉴定和验证等研究工作,对发展生物信息学方法和研究大豆优质育种将具有重要意义。主要成果包括 1.完成大豆EST与基因组、项目组自测序等数据的收集与整理;提出了云计算并行环境下的大数据量EST聚类方法、以及基于参数过滤和集成学习的SNP位点挖掘方法,可有效降低假阳性。 2.在RNA结构分析方面,给出了表征茎区位置的RNA二级结构表示方法;提出了植物miRNA前体分类和成熟体位置预测算法,给出了结合miRNA生源论特征提取方法,解决了正反例样本不平衡问题,能够为生物学家发现新miRNA提供高可靠的候选。 3.基于项目组研制软件,预测了大豆基因组中521个新miRNA基因,克隆得到了gma-MIR390b和gma-MIR1509a基因的启动子全长序列。 4.在进化关系分析方面,提出了迭代多对物种的进化树重构算法,速度较快;在进化网络研究方面,提出的进化网络重构算法降低了网络对数据输入顺序的敏感性。 5.在抗性基因挖掘方面,提出了基于随机森林的挖掘方法,克隆6个PK-LRR-TM类的胞囊线虫抗病候选基因;利用发根农杆菌K599转基因方法验证了抗病功能。 6.对东农93046×合丰25,进行简化基因组测序获得16,038,743个标签和141个差异SNP标记,与样品表型SNP标记数据关联分析获得25个抗花叶病毒病候选基因。本项目共发表论文79篇,包括国际期刊论文47篇,国际会议论文17篇。授权国家发明专利3项、软件著作权2项。获省科技进步一等奖和省自然科学二等奖各1项。培养研究生32名,项目组通过积极参与相关领域主流国际会议、邀请国外专家访问等方式,与国外同行进行了深入的学术交流与合作。