在模式植物拟南芥的研究成果基础上,用数理统计方法分析和提取水稻信使RNA多聚腺苷化[poly(A)]位点上下游周围序列顺式作用元件的特征;用k-gram核苷酸模式、Z曲线、位置特异性分数矩阵、一阶异构马尔可夫模型等方式表征生物信息特征;基于信息增益、熵等多种属性选择算法对特征空间筛选获得重要特征;再分别用隐马尔可夫模型、支持向量机和阶乘矩方法来建立poly(A)位点识别模型;将模型算法与生物实验结合对水稻poly(A)位点进行识别分析、比较和评估;不断改进识别模型和算法,提高位点识别预测准确率,达到有效辅助生物实验进行位点识别的水平;扩展应用于大豆和玉米等其它农业作物(包括单子叶与双子叶作物)的poly(A)位点预测研究中,以适应农业作物基因注释以及基因工程中外源基因poly(A)位点预测问题。本项目所提出的研究计划对作物基因组和遗传工程中转基因精确设计两个重要方面的研究与开发有重大意义。
英文主题词polyadenylation;cleavage site;mRNA3'-end formation; feature extraction;site identification