CausalEGM:通过编码生成建模的通用因果推理框架

英文题目:CausalEGM: a general causal inference framework by encoding generative modeling

中文题目:CausalEGM:通过编码生成建模的通用因果推理框架

单位:斯坦福大学统计系

时间:2023

论文链接:https://arxiv.org/pdf/2212.05925.pdf

代码:https://github.com/SUwonglab/CausalEGM

摘要:

尽管理解和表征因果效应在观察性研究中变得至关重要,但当协变量高维时,它具有挑战性。在本文中,我们开发了一个通用框架 CausalEGM,用于通过编码生成建模来估计因果效应,该框架可以应用于二进制和连续处理设置。在具有无混淆的潜在结果框架下,我们在高维协变量空间和已知密度的低维潜在空间之间建立双向转换(例如,多元正态分布)。通过这种方法,CausalEGM同时解耦协变量对治疗和结果的依赖性,并将协变量映射到低维潜在空间。通过对低维潜在特征的条件,CausalEGM 可以估计每个个体的因果影响或人群中的平均因果效应。我们的理论分析表明,CausalEGM 的超额风险可以通过经验过程理论来限制。在编码器-解码器网络的假设下,可以保证估计的一致性。在一系列实验中,CausalEGM 在二元和连续处理方面都表现出优于现有方法的性能。具体来说,我们发现 CausalEGM 在样本量大和高维协变量存在的情况下比竞争方法更强大。CausalEGM 的软件可在 https://github.com/SUwonglab/CausalEGM 免费获得。

1简介

鉴于观察数据,对治疗因果效应的推论对于许多科学和工程问题至关重要,并引起了广泛的兴趣。例如,(1) Zhang et al.(2017)研究了药物对个性化医疗健康结果的影响;(2) Panzzia和Presbitero(2014)评估了政府公共政策的有效性;(3) Kohavi和Longbotham(2017)进行了A/B测试,为商业公司选择更好的推荐策略。从历史上看,许多数据集的小样本大小阻碍了通过传统亚组分析有意义地探索治疗效果。在大数据时代,数据积累激增。因此,我们需要更强大的工具来准确估计大规模观测数据的因果影响。

研究人员对学习因果关系比因果推理的相关性更感兴趣。学习因果关系最有效的方法是进行随机对照试验 (RCT),其中受试者被随机分配到接受治疗/干预的实验组和一个对照组进行比较。那么结果的实验组和对照组之间的差异衡量了治疗/干预的有效性。RCT 已成为研究因果关系的黄金标准,因为随机化可能会限制各种偏差。然而,RCT 是耗时、昂贵且有问题的,具有普遍性(RCT 中的参与者并不总是代表他们的人口)。相比之下,观察性研究可以提供有价值的证据并检查“现实世界”设置中的影响,而 RCT 倾向于评估高度选定人群中理想条件下的治疗效果。给定观测数据,我们知道每个个体的治疗、结果和协变量。需要发现治疗对结果有因果关系的机制。一个目标是估计反事实的结果。例如,“如果患者/她接受了不同的治疗,这个患者是否会有不同的健康状况?”在实际应用中,由于混杂因素引入的选择偏差,治疗通常不会随机分配。因此,处理过的人群可能与一般人群有很大不同。因果效应的准确估计涉及处理混杂因素,即影响治疗和结果的变量。未能调整混淆效应可能会导致估计偏差和错误的结论。

已经提出了许多框架来解决上述问题。Rubin (1974) 和 Splawa-Neyman et al. (1990) 的潜在结果模型,也称为 Neyman-Rubin 因果模型,可以说是使用最广泛的框架。它对因果关系和潜在假设进行了精确的推理。为了衡量治疗的因果影响,我们需要比较每个个体的事实和反事实结果。由于不可能在不同的治疗条件下观察同一个体的潜在结果,推理任务可以看作是一个“缺失数据”问题,其中需要估计反事实结果。一旦我们在个人或人口平均水平解决“缺失数据”问题,就可以估计相应的个体因果效应或平均因果效应。

潜在结果框架下因果效应非参数估计的经典方法包括重新加权、匹配和分层,详细参见评论文章 Imbens (2004)。当协变量的维度较低时,这些方法通常表现良好,但当协变量的数量很大时会崩溃。近年来,机器学习的繁荣在很大程度上加速了因果推理算法的发展。在本文中,我们探索了机器学习(尤其是深度学习)的进步,以提高因果效应估计的性能。具体来说,我们探索了如何应用深度生成模型将高维协变量映射到具有所需分布的潜在空间。所提出的降维方案能够对低维潜在特征进行调节,这为处理高维协变量提供了新的见解。

1.1相关工作

我们的工作有助于文献使用深度生成模型估计因果效应。该领域的大多数工作都是在二元处理设置下进行的。例如,重新加权方法,例如Rosenbaum(1987)的IPW,Robins等人(1994)为每个单元分配适当的权重以消除选择偏差。基于匹配的方法提供了一种直接比较匹配样本中处理组和对照组的结果的解决方案。Stuart (2010) 中可以找到匹配方法的详细回顾。

因果推理中另一种流行的方法是基于决策树。这些基于树的方法通过学习从数据中学习决策规则来使用非参数分类或回归。请参阅 Athey 和 Imbens (2016)、Hill (2011) 和 Wager 和 Athey (2018)。

最近,神经网络已应用于因果推理,展示了令人信服的和有希望的结果。参见Shalit等人(2017)、Shi等人(2019)、Louizos等人(2017)和Yoon等人(2018)。这些努力中的大多数都处于二元处理设置下。这些方法存在一些局限性。首先,这些模型通常使用单独的网络来估计不同处理条件下的结果函数。这种特定于治疗的网络很难推广到连续治疗。其次,这些基于神经网络的方法侧重于最小化反事实结果的预测误差,同时缺乏足够的理论分析来解释模型设计和架构的合理性。

至于处理连续处理的方法,很多努力都集中在开发 Hirano 和 Imbens (2004) 的广义倾向得分理论。有关其他基于回归的模型,请参见双鲁棒估计器 Robins 和 Rotnitzky (2001)、基于树的方法 Hill (2011)、Lee (2018) 和 Galagate (2016)。还有一些非参数方法不需要正确规范将治疗或结果与协变量联系起来的模型。参见Flores等人(2007)、Kennedy等人(2017)、Fong等人(2018)和Colangelo和Lee(2020)。然而,大多数基于回归的方法需要对协变量和治疗或结果之间的关系进行限制性条件。例如,Galagate (2016) 只考虑平均剂量响应函数 (ADRF) 是二次的情况。Fong等人(2018)依赖于治疗与协变量呈线性关系的假设。这种强有力的假设阻碍了这些方法的广泛应用。根据经验,这些方法中的许多在存在高维协变量的情况下失败,并且不能扩展到大规模数据集

为了克服上述限制,我们开发了 CausalEGM,这是一种使用编码生成建模估计治疗效果的通用框架。CausalEGM 模型在以下方面与现有方法不同。1)CausalEGM 没有使用特定于治疗的网络,而是利用了一个统一的模型架构,该架构适用于离散和连续处理设置。2) CausalEGM采用编码生成降维方案,将协变量对治疗和结果的依赖性解耦,而大多数现有方法无法区分依赖关系。3) CausalEGM 不假设任何预规范处理模型和结果模型。综上所述,本文的主要贡献是提出了一个新的框架,通过编码生成方案将高维协变量映射到低维潜在特征。通过也就是说,使用对抗训练具有所需分布的潜在特征使得它很容易条件。统一的模型设计还支持二进制和连续处理设置下的治疗效果估计。基准数据集的一系列系统实验表明,我们的框架在各种设置下优于最先进的方法。

2 方法

2.1问题表述

 2.2因果推理的编码生成模型

2.3模型训练

CausalEGM 模型由双向转换模块和两个前馈神经网络组成。双向转换模块用于将协变量投影到低维空间并解耦依赖关系。这个双向模块由两个生成对抗网络 (GAN) 组成。在一个方向上,编码器网络E旨在将协变量转换为潜在特征,其分布与标准多元高斯分布相匹配。鉴别器 Dz 网络试图将从多元高斯分布(标记为正高斯分布)中采样的数据与 E 网络生成的数据区分开来(标记为零)。类似地,GAN 模型中还有另一个鉴别器网络以相反的方向工作,其中生成器/解码器网络 G 将潜在特征转换回原始协变量空间以匹配协变量的经验分布。鉴别器网络 D 可以被认为是一个二元分类器,其中潜在多元正态的 D(x) = 1,对于来自经验数据分布的编码器诱导的分布,D(x) = 0。我们使用 WGAN-GP (Gulrajani et al., 2017) 作为 GAN 实现的架构,其中判别器的梯度惩罚被视为一个额外的损失项。因此,对抗训练在潜在空间中分布匹配的损失函数为两项

 2.4模型架构

CausalEGM 的架构非常灵活。在这项工作中,我们对所有网络使用全连接层。具体来说,(E, G, F, H) 网络包含 5 个全连接层,每层有 64 个隐藏节点。(Dz , Dv) 网络每个网络分别包含 3 个全连接层,分别有 64、32、8 个隐藏节点。leaky-ReLu 激活函数部署为每个隐藏层中的非线性变换。当处理为二进制时,我们使用 Sigmoid 作为 H 网络最后一层的激活函数。对于连续处理,我们不使用任何激活函数。批量归一化(Ioffe 和 Szegedy,2015)应用于鉴别器网络。我们使用初始学习率为 2 × 10−4 的 Adam 优化器 (Kingma and Ba, 2015)。模型参数以小批量方式更新,批量大小为 32。训练迭代的默认数量为 30,000。

3理论分析

3.1 GAN背景

3.2问题设置和符号

4 实验

我们进行了一系列实验来评估 CausalEGM 对某些最先进方法的性能。在观察性研究中,准确估计治疗对人口水平和个体水平的影响都是至关重要的。我们的目标是验证CausalEGM估计对人口水平的平均治疗效果和对异质治疗效果的个体治疗估计的能力。由于 CausalEGM 适用于二元处理和连续处理,我们测试了 CausalEGM 在两种设置下的性能。

4.1 数据集

对于连续处理设置,将使用来自先前出版物的三个模拟数据集和真实数据集。

4.2评估指标

4.3 基线 

对于连续处理设置,使用了三个不同的基线。

对于二元处理设置,引入了五个基线。

 

 4.4结果

 

 5 结论

 在本文中,我们开发了一种新的 CausalEGM 模型,该模型利用深度生成模型的进步来处理混杂因素并估计因果推理中的治疗效果。CausalEGM实现了高效的编码,映射高维协变量到低维潜在空间。我们使用基于 GAN 的对抗训练和基于自动编码器的重建来保证潜在特征彼此独立,并包含协变量的必要变化以进行良好的重建。CausalEGM可以灵活地估计二元或连续处理设置下个体和种群的治疗效果。

在一系列系统实验中,CausalEGM 表现出优于其他现有方法的卓越性能。CausalEGM 模型的一些扩展和改进留待。在这里,我们为进一步探索提供了几个方向。首先,虽然我们使用基于 GAN 的对抗训练来保证潜在特征中的独立性,但值得尝试在生成过程中结合近似误差来分析 CausalEGM 收敛的行为。其次,当应用于具有不同样本大小的数据集时,研究 CausalEGM 中超参数的复杂性应该很有希望。

 

参考


深度因果推断模型 - CausalEGM - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/88190.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ceph对象三元素data、xattr、omap

这里有一个ceph的原则,就是所有存储的不管是块设备、对象存储、文件存储最后都转化成了底层的对象object,这个object包含3个元素data,xattr,omap。data是保存对象的数据,xattr是保存对象的扩展属性,每个对象…

java+ssm+mysql农场信息管理系统

项目介绍: 本系统为基于jspssmmysql的农场信息管理系统,功能如下: 用户:注册登录系统,菜地信息管理,农作物信息管理,种植信息管理,客户信息管理,商家信息管理&#xff…

BingChat与ChatGPT比较,哪个聊天机器人能让你获益更多?

人工智能领域的最新进展为普通人创造新的收入来源提供了更多机会。今年早些时候,微软对OpenAI进行了大量投资。此后,微软在Microsoft Edge浏览器中推出了自家的聊天机器人Bing Chat。 在论坛和社交媒体上,你可以发现这两个AI工具都吸引了很…

Property ‘sqlSessionFactory‘ or ‘sqlSessionTemplate‘ are required

项目场景: 最近因为公司业务需要在搭一个新架构,用的springboot3和jdk17,在整合mybatis多数据源的时候报错 (引用的mybatisplus 和 mybatisplusjion的是最新的包-2023-08-26) Error creating bean with name ‘XXXServiceImpl’:…

[已解决] wget命令出现Unable to establish SSL connection.错误

问题 从win11上下载best.ckpt包时 遇到: Unable to establish SSL connection.错误 解决方案: 加上参数: 加上跳过验证证书的参数--no-check-certificate 有些网站不允许通过非浏览器的方式进行下载,使用代理既可以解决问题&am…

【C++入门】模版初阶(泛型编程)

目录 1.泛型编程2.函数模版2.1函数模版的概念2.2函数模版的使用2.3函数模版的原理2.4函数模版的实例化2.5 模板参数的匹配原则 3.类模版3.1类模版的定义格式3.2类模版的实例化 1.泛型编程 让我们思考一个小问题:如何实现一个通用的交换函数呢? 在解决这…

构建个人博客_Obsidian_github.io_hexo

1 初衷 很早就开始分享文档,以技术类的为主,一开始是 MSN,博客,随着平台的更替,后来又用了 CSDN,知乎,简书…… 再后来是 Obsidian,飞书,Notion,常常有以下困…

ElasticSearch基础知识汇总

文章目录 前言一、认识ElasticSearch1.正向索引和倒排索引2. MySql与ElasticSearc3.IK分词器 二、ES索引库操作1.mapping映射属性2.索引库的CRUD 三、ES文档库操作 前言 Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基…

详解过滤器Filter和拦截器Interceptor的区别和联系

目录 前言 区别 联系 前言 过滤器(Filter)和拦截器(Interceptor)都是用于在Web应用程序中处理请求和响应的组件,但它们在实现方式和功能上有一些区别。 区别 1. 实现方式: - 过滤器是基于Servlet规范的组件,通过实现javax.servlet.Filt…

【如何对公司网络进行限速?一个案例详解】

有不少朋友问到了关于企业网络QoS配置,这个确实在实际网络应用中非常多,基本上大部分企业或个人都用到这个功能,本期我们详细了解下QoS如何对宽带进行限制,QoS如何企业中应用。 一、什么是QoS? Qos是用来解决网络延迟和阻塞等问…

JVM 内存大对象监控和优化实践

作者:vivo 互联网服务器团队 - Liu Zhen、Ye Wenhao 服务器内存问题是影响应用程序性能和稳定性的重要因素之一,需要及时排查和优化。本文介绍了某核心服务内存问题排查与解决过程。首先在JVM与大对象优化上进行了有效的实践,其次在故障转移与…

Transformer (Attention Is All You Need) 论文精读笔记

Transformer(Attention Is All You Need) Attention Is All You Need 参考:跟李沐学AI-Transformer论文逐段精读【论文精读】 摘要(Abstract) 首先摘要说明:目前,主流的序列转录(序列转录:给…