恶性肿瘤严重威胁着我国人民的身体健康。利用基因表达数据可以对肿瘤及其分型进行早期诊断、预测化疗敏感性、对疗效和预后进行预测。与传统分析方法相比,基于风险得分函数系统的肿瘤诊断和预后方法具有计算简单、应用方便、成本低的特点,具有广阔的应用前景。但在研究设计、分析方法等方面仍然存在各种问题,且缺乏标准化的实施流程。本研究将首先从研究设计的角度出发,给出发现阶段的样本选择策略,再结合理论和模拟研究,解决基因位点选择和风险得分函数的构建问题,并将研究结果用于实际资料,建立肿瘤诊断和疗效预测模型。根据模拟实验和实际资料的结论,本研究还将给出构建肿瘤诊断和疗效预测模型的操作流程和分析策略,从而为肿瘤的早期诊断、化疗敏感性预测、疗效和预后预测提供有力的手段,为相关诊断产品的生产进一步奠定理论基础。
Risk Score;Cancer;Prediction;Random Forest;set
本研究首先从研究设计出发,探讨了极端表型抽样设计和基于家庭的设计用于构建风险得分函数的有关问题。对于极端表型抽样法,我们采用截断的指数分布或截断的正态分布构建似然函数,进行参数估计。对于基于家庭的设计,我们提出了回顾性多水平模型。在此基础上,我们探讨了高维数据下的位点筛选问题。对于非参数的随机森林法,我们提出了一种基于残差的校正混杂因素的方法,通过一般线性模型,在应变量和自变量中去除混杂效应。模拟实验和实际资料分析表明,该法能有效地降低假阳性率,增加真阳性位点的检出率;对于基于位点集的方法,我们通过大规模的模拟实验,比较了主成分分析和核机器法,结果提示核机器法在相关结构简单时表现较好,而主成分分析在相关结构复杂时反而具有更高的效率。在上述理论研究的基础上,本研究提出一个三阶段的研究策略,即首先采取极端表型抽样等设计,利用位点集的分析方法筛选变量,再基于一般样本,利用随机森林或者分类与回归树算法,进行精细分析,检测交互作用,并建立得分函数,最后再利用外部样本进行验证。本研究中取得的一些成果已被用于实际资料的分析,为肿瘤的早期诊断、化疗敏感性预测、疗效和预后预测提供有力的手段。