转录因子结合位点的识别及基因水平转移的预测是目前生物学研究的核心问题。目前已有许多非比对统计方法来计算及用实验的方法来解决这两个问题。然而,在这些方法中,除过一些模拟研究以外,用统计值的统计功效方法来研究该问题尤其少,而统计分析的误差将影响到所构建演化树的可靠性。本项目将在基于非比对D2统计值的基础上展开以下研究。(1)建立背景序列为高阶马尔可夫过程的隐马尔可夫模型;通过Bernoulli分布建立一种转换模型来研究两种情况下统计功效的分布情况,并通过模拟给出两种理论结果和图解。(2)开发适用于NGS 数据比较的非比对方法并研究其统计功效,期望有个近似统计极值,其统计功效在序列长度趋于无穷大时快速接近于1。(3)通过研究统计值与演化距离的关系,构建演化树。该研究在同源序列分析、基因水平转移及系统演化树构造等领域具有一定的应用价值,可为生物学物种分类提供可靠的理论依据。
英文主题词alignment-free comparison;Hidden Markov model;power;motif;