转入因子绑定区域以及其他导致功能区域,称之为信息短串(MOTIF),他们的识别在整个生物基因组学研究中占有核心的地位。寻找MOTIF的方法本质上是寻求某种特定的模式(PATTERN)。目前已经有了大量可行的实验途径和计算手段寻求某种信息短串。然而,当某种信息短串存在于序列中时,判断特定模式存在的统计功效的研究却不多见。基于我们研究组最近探索性的研究及有关文献,本课题将建立一种具有广泛适应性的理论框架,用概率统计的方式方法对这一问题开展研究。本项目的研究目标之一是在渐近的意义下建立统计功效与诸如背景模型,信息短串出现密度,序列长度等相关因素的定量关系式。本项目的主要研究内容是计算模式出现频数的数学期望和方差,并且对其概率分布给予逼近,其中渐近分布的研究是最具挑战的研究内容。本课题力争从理论上探讨所提方法的优良性并且从使用上设计优良的算法并用大量的模拟试验以保证其高效性,并将其应用于实际的序列
motif;mode;HMM;distribution approximation;identification algorithm
本课题的研究总体上是按照项目计划书所列的内容进行的, 完成了项目申请书中的基本研究内容和基本目标,取得了预期的研究目标,同时也为后续研究做了较为充分的准备。对于特定模式W的出现频数 用正态或者复合泊松分布逼近问题进行了较为深入的研究,得到较好的结果。此外,还对于生物序列的可视化研究以及用于种群比较等问题也展开了一定深度的研究,都得到了一定的研究成果。到目前为止,本课题组已发表的学术期刊论文6篇(SCI收入4篇),此外投稿及待投稿的研究文章数篇。