位置:立项数据库 > 立项详情页
原因学习理论及在全基因组关联分析中的应用
  • 项目名称:原因学习理论及在全基因组关联分析中的应用
  • 项目类别:面上项目
  • 批准号:61070137
  • 申请代码:F020504
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2013-12-31
  • 项目负责人:张军英
  • 负责人职称:教授
  • 依托单位:西安电子科技大学
  • 批准年度:2010
中文摘要:

疾病在分子水平上原因的发现是国际研究前沿、国家发展战略和重大交叉学科的首选研究领域之一,需要从大量生物数据中学习疾病原因。然而如何定义原因始终困扰和限制了学习理论的发展。在不试图解决原因定义的情况下,本项目针对高通量生物数据,独创性地提出从数据中学习出原因的理论、方法和算法,并开发软件分析平台。基于"原因是客观存在的、独立于数据和技术",以"稳定性"测度因素的客观性,以"具有最大稳定性的因素最有可能成为原因"为线索进行搜索,通过层层剥离准则去表及里地学习可能存在的多个原因。整个学习过程是无假设的,从而达到从数据中学习出客观存在的原因和因果关系的目的。其理论体系(原因性模式的定义、以原因学习为目的、纯统计学的无假设学习)是对现行学习理论(模式被含糊定义、以模式分类为目的、在假设空间中寻优)的重要发展,并运用于2型糖尿病全基因组关联分析和建模上,为对疾病的生物学病理研究提供可靠依据。

结论摘要:

全面完成研究计划并有所拓展,进展如下一、原因学习 1. (致病原因的定义)针对致病原因(模式)没有严格定义却要从数据中发现的问题,基于“原因是客观的、独立于数据和技术”的原则,给出了严格数学定义,解决了“原因是什么”的问题。 2. (致病因素的评价)研究了单基因致病、多基因致病、单因素致病和多因素致病各种复杂情况下的致病原因的基本性质,提出了基于数据驱动的致病基因评价体系。二、全基因组SNP关联分析 3. (SNP数据仿真系统)建立了全基因组SNP数据仿真系统,解决了多种复杂疾病模型、多致病因素以及多致病基因的全基因组SNP数据仿真问题; 4. (致病原因的搜索)提出了复杂疾病多因素致病以及多基因联合致病的致病基因搜索算法,并与传统方法进行了系统比较,解决了在全基因组范围高效搜索和发现复杂疾病的致病因素以及联合致病的致病基因问题; 5. (调控变异的搜索与可视化)在基因表达调控网络构建基础上,通过建立基因调控变异网络,解决了依生物网络是典型复杂网络的特点构建基因调控网络及基于基因调控变异网络识别致病基因及其基因之间调控关系的问题; 6. (模体识别)鉴于在生物网络中频繁出现模体具有生物功能的特性,提出了基于局部拓扑特性聚类的模体识别方法,解决了网络模体的快速识别问题。 7. (与疾病相关lncRNA预测)以已知的lncRNA与疾病关系为基础,通过建立lncRNA与疾病的二部网络,生成与lncRNA相关疾病网络(lncDN)和与疾病相关的lncRNA网络(DlncN),通过对网络拓扑性质的分析,揭示了复杂疾病在lncRNA层面上的关系以及lncRNA在导致复杂疾病发生过程上的关系。三、对本项目的拓展 8. 在拷贝数变异数据的仿真、体细胞拷贝数变异的识别、拷贝数变异各种方法的比较等方面也进行了有益的研究并取得了成果。 9. 针对基因表达数据具有稳定分布的重托尾特性这一特点,研究了稳定分布的基本性质,得出了稳定分布是特征域中具有最大特征熵的分布的结论。 10. 全基因组关联分析是超高维空间组合搜索问题,研究了多种组合优化问题的求解,解决了超大规模图最短路问题和旅行商问题的高效搜索。 11.复杂疾病的诊断往往是一个复杂多分类问题,提出了将复杂多分类问题分解成多个简单分类问题的方法;提出了具有高鲁棒特性的数据聚类算法等。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 35
  • 4
  • 1
  • 0
  • 0
期刊论文
相关项目
张军英的项目