致病基因发现是基于基因表达数据的致病机理研究、疾病辅助诊断及基因治疗等研究领域的重要基础。目前的相关研究普遍存在着混淆致病基因和疾病相关基因这一问题,同时也缺乏有效的基于基因表达数据的致病基因发现算法。针对当前研究现状,本课题通过引入因果关系理论对致病基因发现问题进行建模,并以此为基础设计了较为系统和完善的致病基因发现算法。致病基因发现算法的设计按照以下两个基本思路展开1)充分利用小样本观察数据中的信息发现致病基因,基于V结构的致病基因发现算法为该部分的主要研究内容;2)尽可能利用相关先验知识和数据集提升致病基因的发现率和可靠性,该部分研究包含利用孟德尔随机方法提高致病基因的发现率和采用局部网络融合技术提升致病基因的可靠性这两部分内容。针对基因表达数据特性设计的致病基因发现算法为致病基因发现提供了有效手段,对相关领域的研究有一定的促进作用。
Causality;Gene Expression Data;Disease-Causal Gene;Feature Selection;
致病基因发现是基于基因表达数据的致病机理研究、疾病辅助诊断及基因治疗等研究领域的重要基础。本项目基于因果关系理论对致病基因发现问题开展了研究,重点解决了如何充分利用小样本数据信息和先验知识来提升因果关系发现算法的可靠性问题,取得了一批相关的理论和应用成果。具体来说1)在面向基因表达数据的因果关系建模方面,我们指出了传统有监督离散化方法存在的过拟合问题,进而基于最小描述长度准则提出了一种正则化的基因表达数据离散化方法;2)针对V-结构因果关系发现方法在小样本基因表达数据中存在可靠性较差这一问题,提出了基于V-结构冲突的致病基因发现算法SVS,在证明SVS目标函数求解是NP-hard的基础上,给出了近似求解方法;3)在多源数据是否有助于提升致病基因发现率这一问题上,我们在孟德尔随机方法思想的指导下,提出了基于KEGG Pathway等先验知识库的多源数据融合因果关联规则挖掘方法;4)结合因果领域的最新进展,我们将最新的Additive Noise Model方法引入了高维因果关系发现领域,有效提升了因果关系发现能力。围绕上述理论和应用突破,项目组累计发表论20余篇,其中SCI论文10篇,二区以上杂志4篇,一区会议论文1篇;申请国家发明专利4项,已授权1项;登记软件著作权1项;培养硕士研究生9人。相关成果达到了项目预期目标。研究成果部分解决了因果关系在致病基因发现这一应用难题,有效推动了因果关系理论的实际应用与理论研究,为后续研究奠定了较好的基础。