调控模式识别是生物信息学研究领域中的一个基本问题。研究表明,现有方法对保守模式预测的准确程度,无论在碱基水平还是在结合位点水平都较低。在本项目中,我们以改善调控模式的识别算法的准确度和性能为基本目标,充分利用当前多核系统的处理器所提供的高效的计算性能以及多线程和多进程的并行处理技术,提出一种基于多核系统的MapReduce模型;其次,引入位点之间的局部构象信息,建立TFBS与转录起始位点之间距离的分布特征及约束关系,从而建立调控模式的模体模型。提出一种调控模式识别的MapReduce算法,降低算法的时间复杂度,提高对于长序列和特征微弱模式识别的准确程度;最后,通过对JASPAR、TRANSFAC等数据库的统计特征分析,研究调控模式位点的分布特征,设计有效和精确的P-value计算方法。在此基础上,建立多核系统上有效解决数据密集型和计算密集型问题的一种新的计算模型。
motif identification;exact algorithm;approximate algorithm;MapReduce;regular expression
(1) 项目的背景转录因子结合位点 (Transcription Factor Binding Site,TFBS)又被称为顺式调控元件 (Cis-regulatory Element)。在生物信息学中也称为模式或模体 (motif)。识别这些控制基因表达的顺式调控元件,以及表征它们与各自转录因子的相互作用,不仅对于构建转录调控网络,而且对于解释有机物复杂的起源和进化有着重要的意义。 (2) 主要研究内容本项目以改善调控模式识别算法的准确性和性能为基本目标,研究调控模式识别的高效精确算法;建立MapReduce框架下调控模式识别的模型,提高对于长序列、大字符集和特征微弱模式识别的准确程度;研究转录因子结合位点分布的统计特征,建立调控模式识别的统计方法;实现一个调控模式识别的软件系统原型。 (3) 重要结果在模体发现的精确算法和近似算法方面做出了较好的工作。主要包括提出了MapReduce框架下大数据集(ChIP-seq数据集)上子串挖掘方法和模体发现算法MCES;提出了MapReduce框架下精确模体识别的数据划分方法PMSPMR,PMSPMR算法具有良好的可扩展性,加速比接近于线性;建立了模体stem首个正则表达式表示方式,提出了大字符集(蛋白质序列)上高效的stem搜索算法(StemFinder);提出了结合概率分析的模体发现的近似算法PairMotif+。建立了高阶熵压缩的参考基因组序列的自索引结构,并基于此结构进行空间高效的短读序列比对。 (4) 关键数据及科学意义我们在本领域重要刊物IEEE/ACM Transactions on Computational Biology and Bioinformatics (JCR = 2)等和重要会议IEEE International Conference on Bioinformatics and Biomedicine (CCF B类会议)和IEEE Data Compression Conference (CCF B类会议) 等发表了15篇论文(其中8篇论文为刊物论文,7篇为会议论文),SCI检索6篇,EI检索9篇。开发了可在Google和GitHub上访问的软件。这些研究成果为进一步研究高通量测序数据集的结构模体发现,在基因组水平上探索基因的表达调控机制奠定了较好的基础。