基于WIN10的64位系统演示
一、写在前面
我们继续来解读ARIMAX模型文章,这一轮带来的是:
《PLoS One》杂志的2022年一篇题目为《A data-driven eXtreme gradient boosting machine learning model to predict COVID-19 transmission with meteorological drivers》文章的公开数据做案例。
这文章做的是用:使用Xgboost结合天气数据预测新冠。
题目里没说ARIMAX模型,实际上它在文章中被作为对照组。
二、闲聊和复现:结果一描述性分析
(1)全文技术路线
① 收集天气相关的数据,比如气温、湿度、降雨量、风速和气压。作者认为这些天气情况可能会影响病毒的传播。
② 使用了两种不同的统计模型来分析数据和做出预测:ARIMAX和XGBoost。
③ 将模型输出的预测数值与实际发生的病例数进行对比,来看看哪个模型的预测更准确。
④ 选择那个对于某个特定国家预测结果更好的模型,认为这个模型是最适合用来预测那个国家的COVID-19病例数的。
简单来说,这个研究就是试图找出最好的方法来预测不同国家的COVID-19病例数,帮助我们理解疫情可能如何发展。
GPT看图写作文,我只是搬运过来。也就是用气象数据辅助预测COVID-19,感觉这个思路是万金油,可能也可以预测股票走势。
(2)逐段解析
第一、二段,描述性统计,没啥好说的,就是丰富结果呗:(凑图)
第三段,直奔主题:
翻译一下:
这段时间序列图展示了自疫情开始至2022年1月29日,各个南亚区域合作联盟(SAARC)国家的COVID-19确诊病例趋势。孟加拉国、尼泊尔和巴基斯坦的每日确诊病例在不同时期出现波动,包括一些高速上升的趋势。阿富汗和斯里兰卡的模式非常相似,显示出明显的下降倾向。总体而言,不丹和马尔代夫的COVID-19传播率相对于其他SAARC国家来说较低(见图3)。COVID-19确诊病例与气象变量之间的互相关性在0至30的滞后时间内形成。
为了探究在特定时期气象因素对COVID-19传播的影响,只考虑了正的滞后时间[48]。在阿富汗,最高温度和最低温度在滞后时间0处显示出与COVID-19确诊病例显著相关。在印度,只有在滞后时间4天的最高温度显示出显著关系。在孟加拉国滞后9天和马尔代夫滞后13天的最大风速显示出显著关系。在不丹的滞后26天和尼泊尔的滞后10天的相对湿度与COVID-19确诊病例显示出显著相关。地表气压在印度滞后9天、斯里兰卡滞后13天以及巴基斯坦滞后28天与COVID-19确诊病例显示出显著相关(见图4)。
解读,很明显可以分成两段话:
① 疫情趋势图的描述,没啥好说的哈,就客观描述就好;
② 疫情时序图与气象自变量的相关矩阵分析,我们用SPSS整一下:
第一个图是Afghanistan的疫情与最高温度:
有一点要注意的是定义日期得谁,选天哈。
看看这个结果:相关性绝了,气候因素真实万金油的存在。
回到文章的描述:“在阿富汗,最高温度和最低温度在滞后时间0处显示出与COVID-19确诊病例显著相关。”:问题来了,为啥只描述滞后0处,1-30没有描述?而且最后构建ARIMAX模型的时候,选取哪个滞后阶数?
类似的,其他国家的也是存在这种现象,
“在印度,只有在滞后时间4天的最高温度显示出显著关系。”:然后我发现他们在图四中放错图了,并不是最高温度,正确的图如下:
似乎、貌似、可能0-30天都有相关关系吧,求解答。
其他结果,大家自行探索吧。
第四段,构建ARIMAX模型:
翻译:
上述气象因素作为协变量,在不同的滞后期内被用于ARIMAX模型中,以确定它们对COVID-19确诊病例的影响。例如,在阿富汗,滞后0的最高和最低温度被用作构建ARIMAX模型的协变量。同样,对于孟加拉国、不丹、印度、马尔代夫、尼泊尔、巴基斯坦和斯里兰卡,滞后变量被用作协变量,并在表2中显示了这些变量对疾病的影响。
表2展示了阿富汗同一天(即滞后0)的最低温度(β = -8.93,95% CI: -14.30, -3.56)对COVID-19病例传播产生了负面影响。印度滞后4天的最高温度(β = 0.18,95% CI: 0.01, 0.35)和阿富汗同一天(即滞后0)的最高温度(β = 11.91,95% CI: 4.77, 19.05)对COVID-19确诊病例的传播产生了正面影响。孟加拉国滞后9天的最大风速(β = -53.89,95% CI: -93.45, -14.32)和马尔代夫滞后13天的最大风速(β = -4.24,95% CI: -8.31, -0.18)对COVID-19确诊病例的传播产生了负面影响。尼泊尔滞后10天的相对湿度(β = -4.84,95% CI: -9.20, -0.48)和不丹滞后26天的相对湿度(β = -0.12,95% CI: -0.22, -0.02)对COVID-19确诊病例产生了负面影响。巴基斯坦滞后28天的地面压力(β = 25.77,95% CI: 7.85, 43.69)和斯里兰卡滞后13天的地面压力(β = 411.63,95% CI: 49.04, 774.23)对COVID-19确诊病例产生了正面影响。此外,印度滞后9天的地面压力(β = -1.91,95% CI: -3.75, -0.06)对COVID-19确诊病例的传播产生了负面影响。关于气象因素对COVID-19传播影响的详细结果在表2中呈现。
这里他们把建模策略说的比较详细了:首先建立ARIMA模型,然后纳入气象因素。至于气象因素的滞后因子的取值,就一个一个尝试(统计检验需P值小于0.05),我们使用SPSS,以印度为例子:
(1)寻找最优的ARIMA模型,我就直接上结果:
ARIMA(0,1,6),跟文章中的不太一样,毕竟软件不同。注意,这里没有使用季节参数P、D、Q。
(2)加入最高温度纳入自变量,寻找最优的ARIMAX模型,我把最高温度滞后值从0尝试到30,只有滞后等于19的时候,P值小于0.05:
可以看到,模型的参数除了MAPE提升了不少,其他似乎大同小异。至于“(β = 0.18,95% CI: 0.01, 0.35)”,SPSS似乎不能提供了。
三、个人感悟
ARIMAX模型,并非看着的那么光鲜亮丽,有时候还不如单纯的ARIMA模型。
四、数据
链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0273319