R语言复现：中国Charls数据库一篇现况调查论文的缺失数据填补方法-编程知识

编者

在临床研究中，数据缺失是不可避免的，甚至没有缺失，数据的真实性都会受到质疑。

那我们该如何应对缺失的数据？放着不管？还是重新开始?不妨试着对缺失值进行填补，简单又高效。毕竟对于统计师来说，对缺失值进行填补也是日常工作之一。

今天为大家带来一篇CHARLS数据库有关缺失值填补的文章复现，包括全部的代码与处理好的数据一并提供给诸位！

复现文章介绍

今天要介绍的文章是发表在《中国慢性病预防与控制》（IF=2.18），题为：“中国城市老年人身体活动与衰弱的相关性研究” 的研究论文。研究结果显示，中高身体活动有助于降低城市老年人的衰弱风险，应对城市老年人开展衰弱筛查，并重视身体活动在降低衰弱风险中的作用，积极引导城市老年人进行身体活动。

本公众号回复“立春”即可获得“立春”临床统计学沙龙PPT，数据等资料

1. 研究设计

P（Population）参与者：CHARLS2018年城市样本中 60~95岁的老年人。

E（exposure）暴露因素：身体活动水平（PA）。（1周身体活动量（MET-min/周）=对应身体活动的代谢当量（MET）×每天活动时间（min）×1 周活动天数（d）；低水平身体活动 MET 赋值为 3.3，中水平身体活动赋值为4.0，高水平身体活动赋值为 8.0；将＜600 MET-min/周划分为低水平身体活动，≥600 MET-min/周划分为中高水平身体活动。）

O（outcome）结局：是否衰弱（FI）。（FI 的计算方法为存在健康缺陷的指标数目除以纳入总数，范围为 0~1；本研究将衰弱定义为 FI≥0.25。）

2. 统计学方法

利用多重填补法对缺失数据进行填补，疾病维度的使用前一期调查数据，使用多因素非条件logistic回归和分层logistic回归对结果进行分析。

3. 文章数据介绍

研究涉及charls数据库的变量如下表所示，本次复现所用到的变量也与文章保持一致。

4. 研究结果

4.1 基线特征

2623 名城市老年人年龄为 60~95 岁，平均年龄为（69.3±7.3）岁，男性1259 人（48.00%），女性 1 364 人（52.00%）。城市老年人的衰弱率为 26.92%。不同年龄、性别、民族、婚姻、教育、地域、居住状态、医疗保险拥有情况以及身体活动水平的城市老年人衰弱率差异均有统计学意义（P<0.05），见表 1。

4.2 城市老年人身体活动与衰弱的相关性分析

衰弱情况（0=无，1=衰弱）为因变量，身体活动水平作为自变量进行 logistic 回归分析，控制混杂因素后，相比低身体活动，中高身体活动的城市老年人衰弱风险更低（OR=0.243，95%CI：0.181~0.312，P＜0.05）。其他控制变量中，除居住状态和医疗保险外，其余因素均与老年人衰弱的发生相关，均有统计学意义（P＜0.05）。见表 2。

4.3 中高身体活动对不同特征城市老年人衰弱的影响

以衰弱（0=无，1=衰弱）为因变量，身体活动水平（0=低水平，1=中高水平）为自变量，按性别、受教育水平、婚姻状况和地域进行分层 logistic 回归分析。结果显示，与低身体活动相比，进行中高身体活动对于女性、受教育水平偏高、未婚以及居住在中西部地区的老年人衰弱风险降低的作用更大（P<0.05），见表 3。

R语言复现

本次复现包括的统计学方法有：

基线差异性分析
缺失数据填补
多因素logistic回归
分层logistic回归

1.数据导入

首先，导入我们从charls数据库中提取处理好的数据，本次复现数据包括3816名研究对象（原文章n=2623），样本量略有出入，这里大家请多关注统计方法的运用。

2.基线差异性分析

本次复现基线表格用到了tableone包，这里“myVars”汇总了基线表中的全部变量，其中有部分变量为分类变量，则需要通过“catVars”进行指定，否则分类数据也将以定量数据进行展示。

这里tab2中未指定分组变量，则仅展示各变量的数据分布，此外，“showAllLevels = TRUE”表示展示分类变量所有分类因子的结果，“nonnormal =”指定的定量数据将以偏态分布进行分析，如果所有定量数据都是偏态分布，可以简洁的用“nonnormal = TRUE”来表示。

最后，将基线表结果输出保存在工作空间里，这里我们设置保存为csv格式！

3. 缺失值情况

首先对我们所需要用到的研究因素进行批量因子化，并查看缺失值的特征，进行缺失值可视化。

以下是可视化的结果。

4.缺失值填补，多因素logistic回归

利用mice包进行缺失值的填补，m：多重插补法的数量，默认为 5。method：指定数据中每一列的输入方法。1）数值型数据适用 pmm；2）二分类数据适用 logreg；3）无序多类别数据适用 ployreg；4）有序多分类变量适用 polr。默认方法为 pmm 。maxit：迭代次数，一般为 50。

使用with函数对所有数据集进行分析，在填补的数据集中计算身体活动和衰弱指标，按照分组标准进行赋值，并进行多因素logistic回归，最后使用pool函数对结果进行汇总输出。