Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection-编程知识

Rethinking Reconstruction Autoencoder-Based Out-of-Distribution Detection

- 摘要
- 1引言
- 2相关工作
- 3前提
- 4方法

摘要

在某些场景中，分类器需要检测远离其训练数据的分布外样本。具有理想的特性，基于重构自动编码器的方法通过使用输入重构误差作为新颖性与正常性的度量来解决这个问题。我们将这种方法的本质形式化为四元域转换，其内在偏见只查询条件数据不确定性的代理。因此，改进的方向被形式化为最大限度地压缩自动编码器的潜在空间，同时确保其作为描述的域转换器的重构能力。由此，我们引入了包括语义重构、数据确定性分解和标准化L2距离的策略，以大幅改进原始方法，这些方法共同在各种基准测试中建立了最先进的性能，例如，CIFAR-100与TinyImagenet-crop在Wide-ResNet上的FPR@95%TPR为0.2%。重要的是，我们的方法无需任何额外的数据、难以实现的结构、耗时的流程，甚至不会损害已知类别的分类精度。代码已在github上发布。https://github.com/SDret/Pytorch-implementation-for-Rethinking-Reconstruction-Autoencoder-Based-Out-of-Distribution-Detection。

1引言

监督性判别深度分类器实际上是在一个静态封闭世界的假设下设计的，其中模型在部署环境中面对的数据应该是从与训练集相同的分布中采样的。然而，对于在野外的应用，如关键安全的自动驾驶车辆，测试数据往往很难提前知道。更糟糕的是，神经网络，特别是那些基于 relu 或 softmax 构建的网络，可以轻易地对完全无法识别或无关的样本产生不仅是错误的，而且是任意自信的类别预测，因此，赋予系统标记或放弃未知预测的能力是重要的。

分布外（OoD）检测是一种二元分类，用于检测从与训练数据不同的分布中采样的输入[11]。许多现有的方法依赖于使用来自其他类别[28, 32]、对手[15, 19]或训练样本的留出子集[30]的标记为OoD的数据进行训练或调整。然而，对于具有大尺寸（例如，图像）的数据[20]，覆盖OoD的全空间是棘手的，这导致一个捕获OoD分布有限方面的监督方法在没有数据选择偏见的情况下很难泛化[24]。同时，通过引入具有额外训练目标的OoD数据，分类器在分布内（ID）图像上的准确性会波动[28,30]。这些因素暴露了OoD检测的无监督性质。

在一类无监督方法中，输入重构残差被视为一种新颖度度量，以避免上述问题[22]。基本的假设是，一个学会重建ID样本的自动编码器在测试期间无法相对地重建OoD[5]。然而，已经广泛报道，自动编码器可以更好地有效地重建各种OoD样本[7, 22]，导致这些方法在应用于具有挑战性的多类OoD检测任务时性能较差。在本文中，我们从四元域转换的角度，以精确的方式研究异常值的重构问题，通过形式化两个具体的前提条件，其中输入的重构误差是一个有效的数据不确定性度量。首先，其潜在特征位于编码ID样本的域内。其次，解码器具有足够的重构能力来桥接ID图像和它们的潜在表示的域。

预设条件1要求系统捕获潜在表示的异常值。我们不依赖在高维度中表现弱的核密度估计器[1, 7, 23]，类似于考虑紧凑潜在表示的方案[2, 3]，我们最小化一个正则化损失以限制ID潜在特征分布在某个特定空间内。结合输入重构的训练，当这个空间被足够压缩时，任何潜在特征的异常值都会位于其外部。

存在一个耦合问题，即过度限制的潜在空间可能无法为大规模ID图像提供足够的重构能力，这违反了预设条件2。为了缓解这个问题，我们将重构目标从图像改为其提取的激活向量（AV）特征，以减少对潜在空间表达能力的不必要要求。进一步地，从域转换的角度，我们推导出一个基本方程来模拟输入重构误差和数据确定性之间的内在联系。通过概率链规则，我们进一步将其因式分解，将数据确定性表示为由逐层编码器特征重构误差定义的条件密度的乘积。尽管从整个编码过程中累积的大量信息损失使得很难直接从紧凑的潜在空间恢复输入以满足预设条件2，但存在一个等价的预设条件可以被满足，因为它只要求分别恢复每个不可逆编码层后丢失的信息。因此，受以上概念的启发，我们提出了一个理论上定义良好的OoD检测框架，即逐层语义重构。

在这个框架中，我们只使用一个全连接（FC）层和softmax函数作为编码器架构，并利用简单的交叉熵损失来限制潜在空间。我们提供了实验证据和数学洞察，表明在这样的设置下，潜在特征的最大值可以作为过滤出可能被重构的OoD数据的领域亲和力。由于分类器倾向于在OoD数据上产生较小的神经激活[25, 27]，为了使我们的方法对其具有鲁棒性，我们使用提出的归一化L2距离来评估重构的准确性。

我们的贡献主要有三方面：首先，我们为理解基于自编码器的OoD检测建立了一个新的视角，找出了一种通过最大限度地压缩自编码器的潜在空间同时保留对ID数据的足够重构能力来改进它们的方向。基于此，其次，我们开发了一个逐层语义重构的框架。第三，我们使用各种基准数据集对我们的提议进行了全面的分析，并进行了消融和鲁棒性研究，以展示其效能，表明基于自编码器的方法的潜力并不像以前显示的那样黯淡。

• 我们的方法在各种具有挑战性的基准测试中，与SOTA（最先进）方法的性能相当。
• 作为一个辅助模块，我们的OoD检测器的训练方式与分类器是正交的。
• 我们的方法在无监督的效率和适用性模式下运行，不需要额外的数据。

2相关工作

自编码器由一个编码器组成，用于将输入投影到一个维度较少的潜在空间（也称为瓶颈特征），以及一个解码器，用于从其潜在表示中恢复输入。在训练过程中，输入会依次通过编码器和解码器进行处理，以最小化重构误差，这是输入和解码器的重构输出之间的L2距离差异。基于重构的自编码器OoD检测器的基本假设是，专门训练来恢复ID样本的自编码器无法成功地重构OoD样本。因此，重构误差成为测试中OoD检测的一个可能有效的决策函数。然而，与这个期望相反，据报道，自编码器能够准确地重构不同类型的OoD样本[18, 29]。

在[6]中指出，训练样本中的大量噪声使得难以学习大多数ID样本的稳健潜在表示。因此，提出了一种神经网络扩展的稳健主成分分析（RPCA）[4]。在[7]中，将Mahalanobis距离和自编码器的OoD检测方法合并到一个统一的框架中，假设后者可以因此得到增强。最近关于潜在空间自回归的工作[2]提出通过应用自回归密度估计器来约束自编码器从恒等函数中，以最小化ID潜在特征分布的微分熵。我们的提议也利用了限制ID潜在特征分布的优势。不同的是，我们寻求一个最大限度地压缩的潜在空间，紧密覆盖ID潜在代码的领域，以得到这个领域的近似值，而无需参数密度估计器[26]。两种方法的比较详细地在实验部分中进行，结果显示我们的方法在相当大的范围内优于现有的方法。

3前提

在这一部分，我们将介绍我们框架的概念。正式地，我们假设存在一个由所有ID图像特征化的域 $\subset R^N$ 。当样本 $z$ 不在 $X$ 中时，我们将其视为OoD样本。本质上，任何 $\in X$ 是一个ID样本，任何 $\in Z = R^N - X$ 是一个OoD。对于一个在ID样本数据集上训练的自编码器，由编码器 $E (\cdot)$ 和解码器 $D (\cdot)$ 组成，让 $E (x)$ 的域，对于所有的 $\in X$ ，被 $\subset R^M$ 所覆盖。在假设解码器具有足够的重构能力，可以作为 $\rightarrow X$ 的域转换器的情况下， $E (\cdot)$ 和 $D (\cdot)$ 是学习 $X$ 和 $S I D$ 之间的前向和后向映射关系的函数：
在这里插入图片描述
当编码时，X和Z可能会有重叠，如果我们将编码的OoD样本的域表示为SOoD，它可以被分解为 $SO oD = SO oD \cap S I D + SO oD \cap (RM - S I D)$ 。使用等式2，任何编码到 $S I D \cap SO oD$ 的OoD样本都可以被解码回X。对于这部分OoD样本，我们预期会有更大的重构误差，因为它们被解码到了一个不同的域X。此外，对于这些OoD样本，它们在RN中离X越远，重构误差可能就越大。这与数据确定性度量的特性是一致的。

在这里插入图片描述
图1. 描述的四元域转换的示意图。对于编码到 $SID \cap SOoD$ 的OoD样本 $z 1$ ，其潜在表示 $E (z 1)$ 可能等于ID样本 $x$ 的表示。因此， $E (z 1)$ 可以被解码为 $X$ 中的一个不同的样本 $x$ ，从而导致大的重构误差。然而，对于潜在表示 $E (z 2)$ 位于 $S I D$ 外部的OoD样本 $z 2$ ，并不能保证它不能被很好地重构。

然而，对于具有潜在特征 $\in SOoD \cap (R^M - SID)$ 的OoD样本 $z$ ，并不能保证阻止其重构。尽管 $E (z)$ 可能远离编码的ID数据，但 $z$ 可能位于由自编码器的参数和架构确定的流形上，在该流形上，数据可以被精确地重构。一个例子是所有元素都为零的OoD图像。在经过没有移位操作的自编码器处理后，其重构自然会全为零，从而导致OoD的完美重构。自然地，与图1中图示的概念一起封装，对于一个不可知的输入 $r$ ，给定 $\in SID$ ，其重构误差是数据不确定性 $\notin X)$ 的有效度量。这个概念被建模为：
在这里插入图片描述
对于满足等式2的解码器