位置:成果数据库 > 期刊 > 期刊详情页
基因表达谱的非参缺失森林填补算法研究
  • ISSN号:1002-3674
  • 期刊名称:《中国卫生统计》
  • 时间:0
  • 分类:R195[医药卫生—卫生统计学;医药卫生—卫生事业管理;医药卫生—公共卫生与预防医学]
  • 作者机构:第三军医大学军事预防医学院卫生统计学教研室,400038
  • 相关基金:国家自然科学基金项目(81273178,81573254)
中文摘要:

目的评估不同基因表达谱数据集下,多种算法在缺失数据中的填补效果,并分析其对无监督基因表达谱聚类的影响。方法在不同缺失比例的情况下,分别采用非参缺失森林填补法、贝叶斯线性回归法、蒙特卡洛多重填补法和K邻近填补法进行填补,通过均方根误差(NRMSE)和聚类准确率(F值)两个指标来评估不同方法的填补效能和聚类效果,并用模拟数据集进行测试和乳腺癌数据集进行验证。结果随着缺失比例的增加,四种填补方法的NRMSE都逐渐上升;任意缺失比例下,相比于其他三种方法非参缺失森林填补法的填补优势明显。缺失比例为5%、10%、20%和30%的乳腺癌数据集,非参缺失森林填补法的NRMSE依次为0.1951(95%CI,0.1945-0.1953)、0.2776(95%CI,0.2783-2791)、0.4003(95%CI,0.3986-0.4002)和0.4974(95%CI,0.4658-0.5104);聚类效果的准确率为1.0、0.91、0.88和0.82。结论非参缺失森林填补算法实现简单,对数据集的要求较低,比传统填补算法具有更好的稳定性和精确度,可保留较多的基因信息供后续的功能聚类等分析。

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中国卫生统计》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国卫生和计划生育委员会
  • 主办单位:中国卫生信息学会 中国医科大学
  • 主编:孟群
  • 地址:沈阳市沈北新区蒲河路77号
  • 邮编:110122
  • 邮箱:zgwstj@126.com
  • 电话:024-31939626
  • 国际标准刊号:ISSN:1002-3674
  • 国内统一刊号:ISSN:21-1153/R
  • 邮发代号:8-39
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:20780