为正确估计相对弱势的城镇居民医保对象的医疗费用及其影响因素,本研究主要针对以往医疗费用调查仅利用医院门诊和住院病例而遗漏各种原因未在调查所涉及的医院就医者导致的样本代表性不足问题,同时考虑到此类调查中的因变量数据既存在应就医而因贫困等原因未就医导致的0截取或选择性偏倚问题,又存在常见的无应答偏倚问题,提出了针对这两类重要的应答偏倚机制并存时的二阶段校正方法,将处理随机缺失的多重填补技术和处理不可忽视缺失机制下选择性偏倚的样本选择模型综合运用于医保人群医疗费用及其影响因素研究,并结合多阶段复杂抽样设计的抽样权重正确地估计抽样误差,其预期结果将为同类调查研究提供统计方法学上的依据并能正确地估计潜在医疗费用及其影响因素。
medical expense;multiple imputations;sample selection model;complex design;
本研究从符合太原市城镇居民医疗保险参保政策条件的人群中通过多阶段复杂抽样调查来研究该弱势人群医疗费用及影响因素,以避免以往大部分研究仅利用医院门诊和住院病例信息,从而遗漏因各种原因未在调查所涉及的医院就医者导致的样本代表性不足问题;同时考虑到此类调查中的因变量数据既存在应就医而因贫困等原因未就医导致的0 截取或选择性偏倚问题,又存在常见的无应答偏倚问题,提出了针对这两类重要的应答偏倚机制并存时的二阶段校正方法,将处理随机缺失的多重填补技术和处理不可忽视缺失机制下选择性偏倚的样本选择模型综合运用于医保人群医疗费用及其影响因素研究,并结合多阶段复杂抽样设计的抽样权重正确地估计抽样误差。本研究根据协作单位提供的抽样框基础数据进行多阶段复杂抽样,按数据特征,第一阶段分层抽样,第二阶段整群随机抽样。整理筛选出合格调查数据9888例,针对该数据中存在的2.71%非随机缺失和26.58%随机缺失,先通过模拟研究应用二阶段校正方法第一阶段对仅存在随机缺失的模拟数据集分别应用预测均数匹配法(PMM)、倾向性得分法(PS)、基于Bootstrap的EM算法(EMB)和马尔科夫链蒙特卡洛算法(MCMC)进行多重填补,然后把填补后的数据与存在非随机缺失的数据合并,第二阶段应用样本选择模型的两步似然估计来校正选择性偏倚。根据上述方案重复抽样100次,对模拟出的结果以标准偏倚、均方误差的平方根和可信区间平均长度作为评价填补方法优劣的标准,选出该缺失比例下填补随机缺失最佳方案是马尔科夫链蒙特卡洛算法(MCMC)法。再将确定的最佳二阶段校正方法应用于实际调查数据,并在第二阶段的样本选择模型估计中使用复杂抽样设计下待估参数的方差估计,正确地估计潜在医疗费用及其影响因素,最终得到影响太原市城镇居民医保人群年度医疗费用支出的因素主要有被调查者受教育程度、最近医疗单位距离、是否有其他医疗保障、年内是否接受过健康体检、是否接受过社区卫生服务或私人诊所就诊、是否发生过住院、可接受的自付医疗费用比例。 该项目提出了一个两种缺失机制并存时的缺失数据处理策略,已发表文章16篇(其中全国学术会议论文3篇),其中与该项目直接相关内容3篇(最终结果正在整理英文文章投稿中),培养硕士研究生10名,其中2名毕业论文与本项目直接相关,8名参与调查和数据分析等工作。