本项目的目标是研究两分类问题中ROC曲线及其推广型统计量的性质和应用。ROC曲线是度量标记物或分类器分类能力的一个重要指标。在医学诊断中,常使用一个权威的指标和它的阈值来确诊疾病,该指标称为金标准变量,但金标准变量常取连续值,且没有明确的阈值,此时传统的ROC型统计量不适合来评价标记物的诊断能力。这对ROC型统计量的理论和应用带来了新的挑战和研究方向。本项目与传统的ROC型统计量的研究不同,它基于没有明确阈值的连续值金标准,探索度量标记物诊断能力的ROC型统计量,特别是研究标记物联合诊断时的最优组合系数;并在原诊断模型下构造评估新标记物诊断能力的ROC型统计量,研究具有诊断能力的新标记物的选择方法。另外,基因学中有时把相关功能的基因合为一个集合,称为基因集合。我们用ROC型统计量来鉴别具有不同表达的基因集合,寻找基因集合的最优线性组合。这些方法都将被应用于实际数据分析。
ROC curve;classification model;continuous gold standard;measurement limit;newly added marker
本项目主要致力于研究两分类问题中ROC曲线及其推广型统计量的性质和应用。通过研究文献中方法的优点和不足,基于应用问题的背景,我们提出了各种数据结构下度量标记物分类能力的ROC型指标: 度量基因集合分类能力的ROC型统计量,度量连续金标准下标记物分类能力的ROC型统计量, 评价新生标记物对提高已存在分类模型能力的ROC型指标和评估带有测量限制的标记物分类能力的ROC型指标。在不假设标记物的总体分布下, 我们也深入研究了各个ROC型统计量的理论性质,建立计算方法,使得所提方法可以实现,利用数值模拟和实际例子分析来评估了所提各个方法的效果。我们在三年的研究中,共发表和完成(不含完成未被接收)相关论文11篇,其中有9篇为SCI收录的杂志。培养出3名硕士, 达到了研究计划中所提出的技术指标和要求。