人的基因组中的一些DNA序列对基因表达调控有重要的作用,本项目从3个途径进行研究。1. 开发了序列的聚类算法和模体识别算法的并行化,从基因组中,识别并提取CpG序列,对其进行分类及序列相似性比较,发现了一些和基因功能相关的序列模式。2.对大骨节病的基因芯片实验数据进行分析,利用归一化和t检验数据处理方法,识别出了和大骨节病密切相关的基因;通过从基因组数据库中提取基因的上游序列构建数据集的方法,利用模式识别获得和大骨节病相关的基因中共同的调控序列,揭示了共调控基因之间的关系;对大骨节病患者的血清SELDI TOF蛋白质组数据分析,建立了基于小波降噪、支持向量机、决策树分类的质谱峰选择技术。3.收集了银屑病患者的血清,进行了DNA提取和HLA-C基因、SEEK1基因的外显子DNA序列测定,并利用多序列比对,识别了其中的SNP,统计了它们的分布,识别到了和银屑病有重要关系的序列的多态性。此外,还研究了两个辅助技术1.对肿瘤相关的文献进行挖掘,建立了一套基于术语的文献挖掘和可视化方案;2.构建了生物术语信息检索的Webservice,包含了以生物数据库为基础的术语查询、显示系统。
英文主题词gene regulation; microarray; DNA; text mining;