对基因调控网络机理知识的严重匮乏,野生型基因调控网络的复杂性和交互作用等因素严重制约着对于生物系统的改造、设计和应用,更加制约着建模、优化等各种信息理论的有效应用,阻碍生命科学的信息化进程。本项目充分利用合成生物学的工程化本质、利用合成基因线路清晰的层次性和模块性特点,应用分形等混沌理论、控制理论等分析人工合成基因线路的稳定性、非线性动力学特性;确定在保证稳定性和混沌特性基本不变的前提下,基因线路特性和拓扑结构发生变化时启动子启动能力、分子降解速率等关键参数取值空间的变化规律,指导和优化实验设计;分析基因线路对环境信号、内、外源噪声等的基本响应规律,为人工合成基因线路的应用和产品获取开辟新思路,建立新方法。
Pattern Recognition;Gene Regulatory Networks;vw Z-curve;Feature Selection;Machine Learning
充分利用合成生物学的工程化本质、将基因调控网络模块化。进而应用先进的机器识别算法和计算机技术,提高启动子、短编码序列等特殊功能部件的识别精度,具体包括以下几个方面(1) 提出新的可变窗口Z曲线(vw Z-curve)算法,提高原核生物启动子的识别精度,缩短运算时间。(2)在张春霆院士实验室工作的基础上对有监督模式识别分类器的性能进行评估分析和特征筛选研究,一方面是为了通过我们的研究为生物领域的研究者在选择恰当分类器时提供一定的参考,另一方面是为了借助线性分类器方法的可解释性筛选适宜于人类短外显子序列识别问题的最优Z-curve参数集合。借此为推动基因识别算法的进一步发展做出贡献。(3)提出新的IASPLS算法用于原核生物短编码序列的识别。(4)提出新的SPDF算法,提高对于结肠癌和白血病样本的分类精度,并寻找重要的致病基因,为癌症相应调控网络的研究奠定基础。(5)提出新的ZEPLS算法,实现原核生物必需基因的交叉物种识别和预测。(6)建立生物信息学网站,提供上述所有算法的网页调用程序,为生物信息学的发展做出贡献。上诉算法不仅能大大提高识别精度,同时可以大大缩短运算时间,实现在普通笔记本电脑上也可以在几分钟内得到高精度预测结果的目的。更为重要的是,所有算法做到“用户友好”化,用户不需要掌握高深的数学知识,同时也不要求较深的生物机理知识,这一点对于新测序和研究尚未深入的生物物种基因功能部件的识别至关重要。