基于基因表达数据的风险得分函数在肿瘤诊断和预后评价中的应用研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于基因表达数据的风险得分函数在肿瘤诊断和预后评价中的应用研究

项目名称：基于基因表达数据的风险得分函数在肿瘤诊断和预后评价中的应用研究
项目类别：青年科学基金项目
批准号：30901232
申请代码：H2610
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：赵杨
负责人职称：讲师
依托单位：南京医科大学
批准年度：2009

中文摘要：

恶性肿瘤严重威胁着我国人民的身体健康。利用基因表达数据可以对肿瘤及其分型进行早期诊断、预测化疗敏感性、对疗效和预后进行预测。与传统分析方法相比，基于风险得分函数系统的肿瘤诊断和预后方法具有计算简单、应用方便、成本低的特点，具有广阔的应用前景。但在研究设计、分析方法等方面仍然存在各种问题，且缺乏标准化的实施流程。本研究将首先从研究设计的角度出发，给出发现阶段的样本选择策略，再结合理论和模拟研究，解决基因位点选择和风险得分函数的构建问题，并将研究结果用于实际资料，建立肿瘤诊断和疗效预测模型。根据模拟实验和实际资料的结论，本研究还将给出构建肿瘤诊断和疗效预测模型的操作流程和分析策略，从而为肿瘤的早期诊断、化疗敏感性预测、疗效和预后预测提供有力的手段，为相关诊断产品的生产进一步奠定理论基础。

中文主题词：风险得分；癌症；预测；随机森林；集

英文摘要：

Risk Score；Cancer；Prediction；Random Forest；set

英文主题词： Risk Score；Cancer；Prediction；Random Forest；set

结论摘要：

本研究首先从研究设计出发，探讨了极端表型抽样设计和基于家庭的设计用于构建风险得分函数的有关问题。对于极端表型抽样法，我们采用截断的指数分布或截断的正态分布构建似然函数，进行参数估计。对于基于家庭的设计，我们提出了回顾性多水平模型。在此基础上，我们探讨了高维数据下的位点筛选问题。对于非参数的随机森林法，我们提出了一种基于残差的校正混杂因素的方法，通过一般线性模型，在应变量和自变量中去除混杂效应。模拟实验和实际资料分析表明，该法能有效地降低假阳性率，增加真阳性位点的检出率；对于基于位点集的方法，我们通过大规模的模拟实验，比较了主成分分析和核机器法，结果提示核机器法在相关结构简单时表现较好，而主成分分析在相关结构复杂时反而具有更高的效率。在上述理论研究的基础上，本研究提出一个三阶段的研究策略，即首先采取极端表型抽样等设计，利用位点集的分析方法筛选变量，再基于一般样本，利用随机森林或者分类与回归树算法，进行精细分析，检测交互作用，并建立得分函数，最后再利用外部样本进行验证。本研究中取得的一些成果已被用于实际资料的分析，为肿瘤的早期诊断、化疗敏感性预测、疗效和预后预测提供有力的手段。

成果综合统计

成果类型

数量

期刊论文
会议论文
专利
获奖
著作

期刊论文

血浆miRNA表达谱与胰腺癌相关性的研究

Identification of ten serum microRNAs from a genome-wide serum microRNA expression profile as novel

高维肺癌病例-对照研究资料的随机森林降维分析

Genetic association analysis using sibship data: a multilevel model approach

Genome-wide screen for aberrantly expressed miRNAs reveals miRNA profile signature in breast cancer

高维生物学数据两阶段组合降维策略研究

全基因组关联性研究的基因型填补