在一个基因组中,尽管其顺式调控的结合位点及多个相邻的结合位点形成的模块应至少与其编码序列一样重要,但由于缺少高效的实验和精确的计算方法去识别它们,使得我们对已测序的基因组只能得到很局限的认识,这极大妨碍我们对许多重要的基本生物过程的了解。随着越来越多的基因组被完整测序出来,生物学界急需要高效精确的计算工具来预测这些基因组整体的顺式调控模体和模块,以及用数据库将这些模体模块及其相关信息贮存起来,以方便生物学家译解其顺式调控编码。基于项目负责人已完成同时对几十个原核生物全基因组范围的顺式调控结合位点的高效精准的从新预测技术,及为了协助微生物学家系统地阐明真菌生物的顺式调控模块,该项目计划实现以下目标1)开发一个高效的计算工具来预测全基因组范围的顺式调控模体和模块,并将此工具应用到所有的真菌;2)用酵母菌的已知的模体和模块来验证算法的高效性和准确性;3)建立数据库友好界面网站用以检索预测结果
transcription factor binding sites;motifs;cis-regulatory;fungi;algorithm
转录是遗传密码转化为蛋白质的第一步,而转录因子控制着特定基因是表达还是沉默。转录因子是与基因组特定区域结合以打开或者关闭基因表达的蛋白。转录中的错误与糖尿病、癌症等多种疾病相关。为了了解这些转录因子出现缺陷会引起哪些疾病,首先需要识别出转录因子作为“开关”与基因结合的位置,即必须定位基因组上转录因子结合位点,识别出其控制的基因。 在一个基因组中,尽管其顺式调控的结合位点及多个相邻的结合位点形成的模块应至少与其编码序列一样重要,但由于缺少高效的实验和精确的计算方法去识别它们,使得我们对已测序的基因组只能得到很局限的认识,这极大妨碍我们对许多重要的基本生物过程的了解。随着越来越多的基因组被完整测序出来,生物学界急需要高效精确的计算工具来预测这些基因组整体的顺式调控模体和模块,以及用数据库将这些模体模块及其相关信息贮存起来,以方便生物学家译解其顺式调控编码。对于已测序的真核生物在全基因组范围的顺式调控模体和模块的从头预测还缺少相关的算法(大部分算法是对共同调控的调节子,共同表达的基因集合,或者是直接同源的基因集合中寻找),或虽有相关全基因组范围的算法但很不高效精确(大部分是先根据比较基因组学中遗传系谱印记方法通过比对或者只用一种模体发现工具找出非常保守的片段,再用简单聚类的方法找出结合位点),或虽有比较高效的算法但主要是用已有不多的真实数据(特别是已知模体的位置赋权矩阵)来寻找新的结合位点或组合成新的模体和顺式调控模块。 在本项目中,对主要已测序的真菌的转录调控网络进行深入研究,通过研究转录因子结合位点的计算预测,以达到基本了解真菌中的主要转录因子与哪些基因结合,从而为基因功能注解工程提供大量参考数据,我们进行了从头的全基因组范围的预测。第一针对真菌,首先设计了一种更适合真菌的模体发现工具MotifClick;第二设计出了更加合理的优于现有公式的度量公式SPIC来计算模体之间的相似度。第三设计出了新颖并行聚类算法CliP筛选出结合位点。最后,我们采用了比较基因组学的遗传系谱印记加上聚类的方法,将工具整合成软件包CREPY,对酵母菌进行全基因组范围的从头预测。将预测的结果与真实数据库比较,算法能够从新找回已有模体的80%以上。