运用基于统计语言学思想的多元熵距离方法(Multivariate Entropy Distance,MED),系统研究真核生物基因组中编码元件以及与基因结构密切相关的各种功能信号序列的复杂信息特征,发展和建立以MED方法为核心的真核生物基因组序列信息结构的模型,设计一套预测真核生物完整基因结构的算法,为进一步开发出具有独创性思想和我国自主知识产权的有效预测真核生物基因的系统软件打下良好的基础。
运用基于统计学习、多元统计分析和人工智能等非经典数学方法,对生物基因预测中的一系列关键问题进行了研究。针对高等真核生物和微生物基因的复杂信息结构,建立了真核生物外显子、剪接位点、原核生物基因及其翻译起始位点的统计模型,发展了真核生物基因外显子识别、剪接位点识别、原核生物基因自动预测、基因翻译调控区和翻译起始位点预测的各种新算法,基于这些算法初步开发了一系列具有独创性思想和自主知识产权的预测软件,其中微生物基因预测的系列软件MED 1.0, MED 2.0, MED-Start, MED-StartPlus等已经完成,真核基因剪接位点预测软件SSPred已经初步完成。大部分方法已经实现了达到国际同类方法的先进水平的目标,已经在生物信息学领域的权威国际期刊发表了部分研究结果。