【开放集检测】OpenGAN: Open-Set Recognition via Open Data Generation 论文阅读-编程知识

英语积累

Machine learning systems that operate in the real openworld invariably encounter test-time data that is unlike training examples, such as anomalies or rare objects that were insufficiently or even never observed during training. invariably：一贯的
… can be crisply formulated as … 可以被很清晰的定义/表述为
an elegant idea is to… 一个绝佳的方法是…

综述：Applications of Generative Adversarial Networks in Anomaly Detection: A Systematic Literature Review

GAN网络可以学习数据分布
GAN的基本思想是通过让两个神经网络相互对抗，从而学习到数据的分布。其中一个神经网络被称为生成器（Generator），它的目标是生成与真实数据相似的假数据；另一个神经网络被称为判别器（Discriminator），它的目标是区分真实数据和假数据。两个网络相互对抗，不断调整参数，从而最终生成具有高质量和多样性的假数据。
GAN网络有产生新数据的能力，可以大大缓解新颖类检测中缺少新颖类别数据的情况。

开放集现阶段两大方法：

两个方法的缺陷：

解决：提出OpenGAN

在这里插入图片描述

算法演变过程：

使用GAN网络生成fake data，训练一个判别 close data 和 fake data 的二分类判别器；
在训练时使用一些真实世界中的离群数据（outlier data） 可以增强网络性能，即训练一个判别close data和open data的判别器；
$OpenGAN^{pix}$ : 结合GAN产生的fake data并且使用真实世界中的outlier data来训练判别器
$OpenGAN^{fea}$ : 不再使用图片的RGB像素进行训练，而是使用off-the-shelf (OTS) features来对GAN网络的训练；

off-the-shelf (OTS) features: 通过闭集检测的网络计算出来的特征

一般来说，异常数据不会在训练阶段出现。

通用方法：

开放集检测步骤：

一般的开放集检测都会在训练时设置开放集数据不可见，但是有研究证明在训练阶段将一些异常数据作为开放集数据进行训练可以有限的提升检测性能；

但是由于很难产生覆盖开放世界的训练集数据，而且分类器可能会在异常数据上发生过拟合，因此提出OpenGAN

OpenGAN优势：使用GAN网络产生假数据作为开放集数据的训练集去欺骗分类器

给定一个二元分类器D，它的训练目标是将输入样本分为闭集（closed-set）和开集（open-set）两个类别。

$D_{closed}(x)$ ：在闭集上的数据分布
$D_{open}(x)$ ：在开放集上的数据分布（不属于闭集）

$max_D E_{x∼D_{closed}} [logD(x)] + λo · E_{x∼D_{open}} [log(1−D(x))]$

$D (x)$ ：这表示分类器D对于给定输入样本x的输出。它表示样本属于闭集类别的概率。也就是说，D(x)是模型对于输入样本属于闭集的估计概率。
$E_{x∼D_{closed}} [logD(x)]$ ：这是第一项，表示对于从闭集数据中抽取的样本x，将其输入到分类器D中，并计算其对数概率logD(x)，然后对所有闭集样本取平均。这一项鼓励分类器正确地对闭集样本进行分类，即将闭集样本的概率估计尽可能地提高。
$E_{x∼D_{open}} [log(1−D(x))]$ ：这是第二项，表示对于从开集数据中抽取的样本x，将其输入到分类器D中，并计算其对数概率log(1−D(x))，然后对所有开集样本取平均。这一项鼓励分类器正确地将开集样本排除在闭集之外，即将开集样本的概率估计尽可能地降低。
$λ o$ ：这是一个超参数，用于调节第二项（开集样本）相对于第一项（闭集样本）的权重。通过调整λo的值，可以控制分类器在训练过程中对于闭集和开集样本的重视程度。

二分类方法的有效性取决于开集训练样本是否能够代表分类器在测试时遇到的开集数据。 如果开集训练样本不能充分涵盖开放世界数据中的变化和多样性，那么分类器在面对未见过的开集样本时可能表现不佳。

使用GAN网络生成数据。

$G (z)$ : 一个可以生成图像的生成网络，生成器网络 G 接收从高斯正态分布中随机采样得到的噪声输入 z，并使用这个噪声向量生成合成的图像。
这些合成图像可以被视为额外的负例或开放集样本，然后将它们添加到用于训练分类器D的训练数据池中。
$D (D i scr imina t or)$ : 判别器，负责判断输入的数据是真实的还是生成的。