肿瘤标志物在肿瘤早期诊断以及肿瘤发生发展机理研究中具有重要作用。随着基因组研究的发展,研究者已经在基因水平上获得了大量肿瘤相关数据和信息,如何利用生物信息学技术,在海量的数据中高效地挖掘高敏感、高特异、临床易检测的标志物信息,已成为当前肿瘤分子标志物研究的前沿课题。本项目拟通过全面系统地搜集已有肿瘤基因表达相关数据和分子标志物信息,融合计算智能、统计分析和生物信息学技术,在处理和分析所搜集数据基础上,对肿瘤诊断的复合分子标志物进行预测研究,并对肿瘤分子标志物所分泌蛋白的血液检测性进行预测研究;同时,对基因表达数据预处理、海量复合分子标志物筛选及其结果存储查询,以及与其他疾病的特异性度量等具体问题进行算法的开发、改进及系统研发。本项目的研究不仅对肿瘤诊断和发展机理等领域具有巨大的现实意义,而且其研究思路和方法必将为其他相关生物信息学的研究带来启发作用。
cancer biomarker prediction;blood-secretory protein identi;feature selection;microarray expression data ana;microRNA prediction
项目组成员按照项目的研究计划进行了相关内容的研究,良好的完成了项目预定的目标,目前已经取得了多项科研成果,公开发表学术论文10余篇,其中SCI收录6篇,EI收录5篇,获得专利1项、软件著作权6项。 本项目在搜集人类公共癌症相关基因表达数据的基础上,围绕肿瘤复合分子标志物预测模型的设计与实现这一目标,进行了一系列相关的研究工作。根据本项目的整体流程设计,项目组针对12种代表性肿瘤搜集了52组共两千五百余套芯片数据,并按照实验组织或器官等信息进行了分类整理,并在以下几方面取得了一定成果在肿瘤标志物预测与分析方面,课题组与美国佐治亚大学生物信息研究所合作研发了基于基因组的肿瘤相关基因数据库原型,实现了基于多种癌症类型的肿瘤标志物预测系统DMarker,并针对胃癌取得了初步分析结果。在基因表达数据的预处理与差异表达基因识别方面,项目组开发了基于改进的信噪比的无关基因剔除方法,研发了多阶段特征选择算法。另外,项目组还开发了基于流形排序算法的改进入血模型,为更好的预测入血蛋白提供了很好的手段。同时,项目组使用基于SVM-RFE算法的基因芯片分析技术对拟南芥抗旱基因以及水稻芯片数据中抗盐基因进行了很好的预测研究,并搭建了基于Web的农作物基因组注释和分析平台(ATGC系统),该系统为分子育种工作提供了良好的前期预测基础,并拓展了项目相关算法的适用领域。在非编码RNA研究方面,项目组开发了基于结构序列混合特征的pre-microRNA预测方法,为深入研究非编码RNA与疾病的关系等方面提供了基础。 在项目组成员的共同努力下,项目整体进度顺利,研发期间在国内外杂志和会议上发表学术论文10余篇。在此项目的支持下,项目组成员的科研能力得到极大的提高,期间邀请了美国佐治亚大学两位研究员来吉林大学做专题报告。项目组成员多次参加国内外生物信息学国际会议,与世界顶尖生物信息学家进行了面对面的交流,拓展了项目小组成员的研究思路,为更好的科学研究奠定了基础,同时本项目的相关科研成果对生物信息学相关研究方向的发展起到了很好的促进作用。