高精度的人类启动子识别方法能用成本较低的计算技术来改善基因注释的结果,避免昂贵费时的序列比对和生化实验过程。同时,它能帮助广大生物医学研究人员快速有效的缩窄待研究的启动子区域,有利于启发后续的生物化学实验来追踪和验证关于基因转录过程中的理论假设。本课题的主要研究目标是,在充分考虑启动子的多样性和不确定性的基础上,提取并动态融合不同生物信息特征,利用和发展二型模糊图模型的方法,提高人类启动子识别系统的精度,从而帮助广大生物医学研究人员快速准确的定位转录起始位点和相关的启动子区域,更好的发现和理解启动子的工作机理。拟解决的关键科学问题包括(1)分析和提取组织特定性启动子的生物特征。(2)启动子的结构表示和不确定参数的估计问题。(3)多模态生物特征动态融合中权重赋值的问题。
Graphical Models;Belief Propagation;Gene Evolution;Topic Modeling;
1)本项目主要研究如何利用概率图模型等机器学习技术来解决计算生物领域的若干问题,例如基因演化分析等问题;2)本项目主要成果a)提出基于超图的主题模型并开发新型的消息传递学习算法;b)提出利用非参数消息传递算法来分析基因演化进程。3)在本项目支撑下,共发表期刊论文5篇(含IEEE TPAMI和JMLR各1篇)和国际会议论文3篇,专利申请1项,软件著作权3项。