“面向人群分类的基因组序列多态性分析的研究”(编号60871092)为自然科学基金委员会面上项目,研究期限为3年。本项目目标是依据图论算法和人工智能理论,针对单核苷酸多态性(SNP)的生物测试规模大、差异位点影响人群结构推断这两个问题开展研究,重点旨在SNP候选位点和标签SNP位点挖掘算法、基于SNP位点和层次聚类的人群结构推断研究等方面取得一些理论和实验成果,为开发实用的生物信息学原型软件系统奠定坚实的理论基础与先进的技术基础。 本项目在广泛调研基因组序列多态性信息分析方法国内外进展的基础上,把工作重点放在tagSNP挖掘的有效算法和人群结构推断的层次聚类方法研究上。在基于参数过滤和集成学习的SNP候选位点挖掘、基于聚类和图模型的tagSNP位点获取算法、疾病人群的线粒体DNA分析、人群基因型序列距离矩阵表示和基于层次聚类的人群结构推断算法等方面取得一系列创新性成果,并开发了相应的软件以方便对上述各种算法和策略进行研究。 本项目共发表文章24篇,其中SCI收录7篇,EI收录11篇,ISTP收录1篇,获省级奖1项。毕业博士生、硕士生共6人。
英文主题词genome sequence polymorphism; single nucleotide polymorphism(SNP); tagSNPs; graph model and clustering algorithm; population classifying