ISNAS-DIP:用于深度图像先验的图像特定神经架构搜索
论文链接:https://arxiv.org/abs/2111.15362v2
项目链接:https://github.com/ozgurkara99/ISNAS-DIP
Abstract
最近的研究表明,卷积神经网络(CNN)架构在频谱上偏向较低频率,这已被用于深度图像先验(DIP)框架中的各种图像恢复任务。网络在DIP框架中施加的感应偏置的好处取决于体系结构。因此,研究人员研究了如何自动搜索以确定最佳表现模型。然而,常用的神经结构搜索(NAS)技术是资源和时间密集型的。此外,最佳表现的模型是为整个图像数据集确定的,而不是单独为每个图像确定的,这将是非常昂贵的。在这项工作中,我们首先证明了DIP框架中的最优神经结构是图像相关的。利用这一见解,我们为DIP框架提出了一种特定于映像的NAS策略,该策略需要的训练比典型的NAS方法少得多,从而有效地实现了特定于映像的NAS。我们通过以下方式证明了所提出策略的有效性:(1)在包含来自特定搜索空间的522个模型的DIP NAS数据集上展示了其性能;(2)在图像去噪、油漆和超分辨率任务上进行了广泛的实验。我们的实验表明,特定于图像的指标可以将搜索空间减少到一个小的模型队列,其中最好的模型优于当前的NAS图像恢复方法。
1. Introduction
卷积神经网络(CNN)已经广泛应用于计算机视觉的各个领域。特别是,研究人员在图像恢复任务中利用CNN的能力[1,2,3,4],这是指从损坏的版本中恢复原始图像的任务。CNN的成功是由于它们能够学习从损坏的图像到未损坏的对应图像的映射。然而,ground truth标签并不总是可用来学习给定域的这种映射,限制了在监督设置下方法的使用。为了解决这个问题,研究人员将注意力转向了无监督的方法。最近的发现表明,CNN的架构包含一个内在先验,可以用于图像恢复任务[5,6]。这种见解导致了深度图像先验(DIP)框架[5],该框架仅适用于退化的图像,并且可以在没有监督训练阶段的情况下为图像恢复任务产生竞争性结果。它通过提出一种新的正则化器:网络架构本身,为恢复问题提供了另一种解决方案。除了这一实证发现之外,Rahaman等人[7]还从理论上研究了神经网络对低频的频谱偏差,这可以解释DIP框架令人印象深刻的性能。Chakrabarty[8]进一步探讨了DIP在自然图像去噪中成功的潜在原因。工作表明,在迭代的早期阶段,网络倾向于表现得类似于低通滤波器。最后,DeepRED[9]通过添加显式先验来增强DIP,合并了“去噪正则化”(RED)的概念。
DIP框架面临的一个问题是网络的体系结构设计对性能有很大的影响。最近的工作试图自动搜索各种任务的网络架构过程,这被称为神经架构搜索(NAS)。在DIP背景下,Chen等[10]将NAS应用到DIP框架中。然而,当前的NAS方法需要大量的计算成本,因为它们需要优化大量的体系结构来确定最佳的。此外,这种成本阻碍了为每个图像确定最佳架构;相反,现有的NAS方法为图像数据集搜索最佳架构。
**我们的工作。**在本文中,我们提出了一种新的图像相关度量,以确定DIP框架中的最优网络架构,并使用最少的训练。与以前的工作不同,我们将我们的指标应用于DIP以查找特定于映像的体系结构,因为性能强烈依赖于要恢复的映像的内容。
我们首先通过展示在给定的搜索空间中,针对不同映像的最佳架构只有很小的重叠来激发特定于映像的NAS。图1说明了这一点,其中的矩阵显示了每个图像的前10个模型(总共522个模型)之间用于去噪和修复的重叠数量。
为了识别适合特定图像的架构,我们提出了与图像相关的指标,用于测量网络生成的初始输出的功率谱密度(PSD)与损坏图像的功率谱密度(PSD)的距离,并将其用作我们的指标。直觉依赖于这样一个事实:这两个越相似,模型重建图像的效果就越好,因为它更接近解空间。
我们通过查看度量值与图像恢复性能之间的相关性来激励度量的选择。这是一种不完美的关联;因此,我们选择一小组架构来基于度量值进行优化。然后通过选择输出最接近所有模型输出平均值的模型来进行最终选择。
我们使用所提出的策略在传统数据集上进行了图像去噪、图像修复和单图像超分辨率任务的实验。对于数据集中的每张图像,我们运行我们的ISNAS算法来识别最佳的图像特定模型。结果表明,我们的方法在质量改进方面优于最先进的工作[10]。
主要贡献可以总结如下:
- 我们通过经验证明了识别图像特定模型以提高DIP质量的必要性。
- 我们提出了用于NAS的新指标,只需要随机初始化的CNN网络。这些指标允许在任何搜索空间内对体系结构进行排名,而不需要进行冗长的优化,以替代它们在图像恢复任务上的成功。
- 我们在模型子集中引入了两个选择过程,用于以无监督的方式为DIP找到最优架构。
- 我们为DIP生成了一个NAS数据集,其中包含522个模型,针对来自不同领域的10幅图像进行了优化,包括图像去噪和图像补全任务。
- 在常用数据集和NAS数据集上进行的广泛实验验证了我们的方法。
2. Related Work
2.1. NAS
手工设计复杂架构的挑战已经将研究人员的兴趣转移到自动神经架构搜索领域[11]。最初的工作之一[12]将NAS表述为一个强化学习问题,其中通过训练策略网络来采样更好的架构。在此基础上,Zoph等人[13]应用了基于细胞的搜索,然后将其堆叠以构成网络。Pham等人[14]引入了权重共享的思想,其中网络是联合训练的。他们表示,它将复杂性降低了1000倍。在图像恢复的背景下,Suganuma等[15]将进化搜索应用于卷积自编码器。随后,Zhang等人开发了HiNAS[16],利用基于梯度的搜索策略,并引入了层次神经结构搜索来进行图像去噪。最近的一项研究[10]利用基于强化学习的NAS来改进网络架构,并为上采样块提供了一个搜索空间,我们在整个实验中都遵循了相同的过程。
2.2. 未经训练的NAS
NAS的主要挑战之一是它的计算费用,因为在确定最佳模型之前需要评估许多网络。为了最大限度地减少资源消耗,研究人员提出了不需要训练的方法。最近,Mellor等人[17]提出在不需要训练的初始化时为网络架构分配分数。他们的直觉是,与两个输入相关的二进制代码的紧密程度是网络能够在多大程度上分离这些输入的指标。他们实证地展示了初始得分与网络性能之间的相关性,尽管缺乏理论解释。Chen等人[18]试图通过质疑和分析训练前网络排名的两个指标,即可训练性和表达性的有效性,来架起深度学习理论和NAS应用的桥梁。Zhang等人[19]进一步提出了一种基于突触显著性的度量,该度量既不需要训练也不需要标记。他们在NAS- bench-201上取得了可喜的结果[20],NAS- bench-201是用于评估NAS算法的常规基准。然而,现有的NAS基准主要由图像分类数据集组成。
受之前的无训练方法的启发,我们将初始化时对网络进行排序的想法适应于DIP设置。此外,为了评估我们的NAS方法,我们生成了类似于NAS-bench 201[20]的DIP NAS数据集,这在4.1节中进行了解释。
3. Methodology
在典型的NAS算法中,就时间而言,主要瓶颈是模型的训练以计算其性能。如果可以找到一个易于计算的无需训练的性能预测器,就可以消除这个瓶颈。此外,我们的实验表明,DIP设置的模型选择应该与图像相关。在本文中,我们提出了几种不同的无训练和图像依赖的性能预测器,并研究了它们的有效性。
Ulyanov等人[5]观察到DIP中性能较好的架构在训练的早期迭代中往往具有具有大空间结构的输出。捕获空间结构分布的一个有用度量是使用功率谱密度(PSD)。粗糙和精细的纹理会导致PSD分别集中在低频和高频上。
受此启发,我们提出了一个假设,即如果未经训练的CNN输出的PSD与待重构图像的PSD相似,则该模型将更接近所需的解空间,从而有利于优化,相对于相似度较低的模型,恢复效果更好。在本节中,我们制定了不同的指标来量化图像与CNN随机输出之间的相似性。
3.1. 图像依赖度量
最好使用ground truth图像来计算距离。然而,在实际情况下,我们无法获得它们。因此,我们使用CNN的随机输出与损坏图像之间的距离作为输出与ground truth图像之间距离的指标。
3.1.1 PSD DB MSE
测量PSD之间距离的一种直接方法是均方误差(MSE)。通常,数组的PSD由数量级不同的数字组成。因此,在MSE计算中,使用PSD的对数,我们称之为分贝PSD,而不是直接使用PSD本身更合适。为此,我们首先用随机初始化的权重和损坏的图像计算给定CNN输出的分贝PSD。然后,我们测量它们之间的MSE。该度量的示意图如图2所示,其公式为:
1 n ∑ i , j ( 10 ⋅ log X i , j − 10 ⋅ log Y i , j ) 2 (1) \frac{1}{n}\sum_{i,j}\left(10\cdot\log X_{i,j}-10\cdot\log Y_{i,j}\right)^{2} \tag{1} n1i,j∑(10⋅logXi,j−10⋅logYi,j)2(1)
式中,X和Y分别为CNN随机输出和损坏图像对应的功率谱密度,n为像素数。
3.1.2 PSD DB Strip MSE
图像中的空间结构和纹理与其PSD相关,但PSD的每个频率区域对空间结构的贡献并不相同。损坏图像的PSD的高频区域受到噪声的严重影响。因此,在相似性比较中,只聚焦中心附近的一段频率更为合适。根据这些见解,度量的计算方法如下:首先,对CNN随机输出的PSD和损坏图像的分贝应用掩模。然后,我们计算它们之间的均方差。作为掩模,我们采用内径和外径分别为图像尺寸的10%和20%的strip,以减少对图像尺寸的依赖。该指标的示意图如图2所示,其公式为:
1 n ∑ i , j ( 10 ⋅ log X i , j − 10 ⋅ log Y i , j ) 2 ⋅ M i , j (2) \frac{1}{n}\sum_{i,j}\left(10\cdot\log X_{i,j}-10\cdot\log Y_{i,j}\right)^{2}\cdot M_{i,j} \tag{2} n1i,j∑(10⋅logXi,j−10⋅logYi,j)2⋅Mi,j(2)
其中X和Y分别为CNN随机输出和损坏图像对应的功率谱密度,M为掩模,1和0组成的二维数组,n为掩模M的非零像素个数。
3.1.3 PSD Strip Hist EMD
为了使我们的度量旋转不变,我们使用psd的直方图。在这个度量中,我们首先计算CNN随机输出和损坏图像的psd。然后,我们丢弃PSD的表项,其中对应的掩码表项为零。为此,我们使用前面度量(PSD DB Strip MSE)中定义的掩码。之后,PSD被平面化成两个一维数组,然后转换成直方图表示。最后,我们计算了这两个直方图之间的搬土距离(EMD)。直方图的范围和bin数是试验的结果。在我们的实验中,我们使用75作为bin的数量,0-1作为直方图的范围。该指标的示意图如图2所示。
3.2. 图像独立度量
在我们的评估中,我们还使用PSD纳入了一个与图像无关的度量,其灵感来自于Heckel[21]所利用的CNN的结构偏差。这使我们能够分析贡献是由于使用CNN生成的图像的PSD还是上述指标的图像依赖性。图像的结构部分可以被认为是低频成分,就像噪声或损坏是高频成分一样。假设随机初始化CNN的输出频谱集中在低频区域,那么它在去噪和修复等恢复任务中往往表现更好,我们提出了一个度量来衡量CNN的低通特性,并将其作为我们的图像独立度量。
3.2.1 99% Bandwidth (99 BW)
量化阵列低频特性的一种直接方法是计算其带宽。我们将二维阵列的P%带宽定义为包含二维阵列PSD中总能量P%的圆的半径。
显然,CNN的带宽不依赖于要重构的图像,这使其成为与图像无关的度量。为了选择P的值,我们从随机初始化的CNN中创建了几个输出,并选择了导致带宽变化最大的P值。这是P=99,我们在实验中使用这个值。
3.3. ISNAS-DIP概述
给定任何搜索空间,我们可以使用其中一个指标来计算模型的适应度分数,从而将整个搜索空间缩小到几个模型。如上所述,这些指标与优化网络的恢复性能相关,但这种相关性是不完美的。因此,我们首先在初始化时计算模型的度量,即不进行任何权重优化。然后,我们根据“图像独立”和“图像依赖”指标的值按升序对每个模型进行排序。最后,对于每个度量,我们选择具有最低度量值的top-N模型。
接下来,我们必须在选择的N个模型中做出最终选择。我们提出了两种平均技术来执行选择。第一个选择过程如下:在DIP设置下优化选择的N个模型。取N个重构图像的平均值,这些图像的系数与相应模型的度量值成反比。计算平均图像和每个重建图像之间的MSE分数。选择与重建图像相对应的模型,给出恢复平均后的最低MSE,即最接近平均值的模型。在本文中,我们将这种技术称为全尺寸平均选择。
第二种技术在每个模型要优化的图像大小上不同,并显著提高了ISNAS的速度。在对N个模型进行优化之前,我们通过重新缩放而不是完整尺寸的图像来将损坏的图像调整为“64×64”,以加快优化过程。在本文中,我们将把这种技术称为调整大小的平均选择。通过选择输出最接近平均值的模型,至少可以保证在N个模型中排除最差的模型。请注意,这些选择方法对99 BW度量引入了可以忽略不计的图像依赖性,因为N个模型中的最终模型选择可能取决于图像的内容。
4. Experimentation
在本节中,我们首先描述实验设置,包括搜索空间、我们使用的数据集和实现细节。然后,我们继续分析由自然和医学图像组成的小数据集(表示为DIP的NAS数据集)上的架构选择,并进一步评估给定恢复任务的既定数据集上的图像恢复性能,包括去噪、修复和超分辨率。
4.1. NAS数据集的架构选择
4.1.1 实验设置
搜索空间。根据最近的工作,我们在整个实验中选择了与NAS-DIP[10]相同的搜索空间。搜索空间由不同类型的上采样单元和解码器和编码器单元之间的随机跨级特征连接组成。每个上采样单元由五个离散属性定义:空间特征采样、特征变换、核大小、膨胀率、激活层。如果连接比例因子大于2x,则连续连接一系列2x上采样操作(例如,在解码器和编码器单元之间进行4x连接时,连续连接两个2x上采样操作)。根据原文[10],每个架构由5个编码器单元和5个解码器单元组成。我们总共在搜索空间中随机选择了522个不同的模型,并记录每个模型的结果,用于图像去噪和图像修复任务。
NAS数据集用于DIP。为了评估我们的指标在搜索空间中执行模型选择的效果,我们使用图3中的图像为DIP创建了一个NAS数据集。数据集由10幅图像组成,其中8幅图像选择自“BM3D数据集[22]”或“标准512 × 512灰度测试图像数据集”。图像“blood”和“chest”[23]被附加以提供域多样性。每个图像都转换为灰度并调整大小为512×512。然后,对于图像去噪任务,应用σ=25的高斯噪声;对于图像修复,应用具有50%的伯努利掩模。
实现细节。在训练模型时,我们使用Adam作为优化器,其恒定学习率为0.01。我们选择停止点为1200去噪,9500修复,4500超分辨率。我们使用最终的PSNR分数作为我们的评估指标,并遵循DIP[5]的相同程序,其中将指数滑动窗口应用于结果图像。
4.1.2 架构选择的准确性
使用NAS数据集的DIP和522模型,我们经验地确定,在DIP设置下,相同的模型架构对不同的图像表现不同(见图1a和1b,并补充进一步的结果)。
基于图像恢复任务受益于图像特定神经网络架构的见解,我们研究了建议的指标在识别特定图像的最佳网络架构方面的准确性。图4显示了522个模型在图像去噪(第一行)和图像修复(第二行)下的最终PSNR分数分布。我们观察到,使用N=15的PSD DB Strip MSE找到的模型(15个模型中表现最好的模型用红色bin表示)总是位于所有图像峰值的右侧。此外,对于N=5的情况,黑色bin显示了相同的分数。尽管后一种情况比N=15差,但在某些情况下仍然具有竞争力。因此,PSD DB Strip MSE有可能将搜索空间的大小减小到只有几个模型。
表1显示了最终PSNR分数与图像去噪任务相应指标值之间的相关性。这些相关性是从DIP的NAS数据集中提取的。对于大多数图像,ground truth(GT)计算的度量与模型性能的相关性相当好。由此可见,这些指标可用于减少NAS算法中需要训练的大量模型。然而,在实际情况下,我们必须使用损坏的图像来计算度量,因为ground truth图像是不可访问的。在这种情况下,PSD DB MSE指标的相关性下降,但其他指标仍然几乎保持不变。PSD DB MSE和PSD DB Strip MSE的比较表明,关注PSD的特定部分可以解决相关下降问题,并且比关注整个PSD的相关性更高。此外,来自不同领域的图像对度量的响应非常不同。例如,血液和胸部图像的相关值彼此不相似。所有这些观察结果都突出了关注PSD的特定区域而不是整体的好处。
4.2. 图像恢复数据集实验
在本节中,我们在常用的数据集上运行实验,用于图像去噪、图像修复和单图像超分辨率任务。为了在传统数据集上测试我们的算法,我们从搜索空间中取5000个模型的子集,并为每个模型计算特定于图像的度量。对于每个度量,我们根据它们的度量分数对模型进行排序,并在top-N模型中执行选择。请注意,对于下面的实验,我们使用了相同的5000个模型。在定量分析部分,我们从实际的角度描述和比较了我们的指标。
图像恢复设置。为了将提出的指标所选择的模型的性能与最先进的工作[10]进行比较,我们在采用良好的数据集上进行评估。对于图像去噪,我们使用BM3D [22], Set12[1]和CBM3D[22]数据集,并应用σ = 25的高斯噪声。对于图像修复,我们使用BM3D[22]和Set12[1]数据集,在50%缺失像素设置下。我们使用Set5[24]和Set14[25]数据集在2×、4×、8×三种上采样尺度下进行超分辨率实验。我们用作者提供的代码[10,5]分别重现了NASDIP[10]和DIP[5]的结果。这允许在相同条件下通过执行优化进行公平的分析。
4.2.1 定量分析
在表2中,我们报告了DIP[5]、NASDIP[10]和我们的指标的PSNR分数。我们在15个模型中采用全尺寸的平均选择。对于去噪,PSD DB Strip MSE度量对于所有数据集都是第一位的。此外,在计算度量的同时,对抗使用损坏图像时出现的相关性下降的想法与表2中给出的结果一致。对于灰度数据集,PSD DB MSE与其 strip版本之间存在很大的差距,因为通过应用strip掩模消除非常高的区域可以减轻噪声对PSD的影响,从而可以找到更好的模型。相反,在超分辨率下,它们彼此之间略有不同,一个可能的解释可能是我们的方法倾向于选择具有低通特性的模型。超分辨率需要产生精细的细节,然而我们选择的模型产生更平滑的输出,不能产生精细的细节(见补充),这表明需要一个不同的超分辨率度量。这一观察结果在99 BW指标中更为明显(表2),因为明确选择了具有低通特性的模型,导致指标中性能最差。对于图像修复,所有特定于图像的指标都优于DIP[5]和NAS-DIP[10]。总的来说,这些指标在去噪和修复任务上给出了有希望的结果。此外,我们的图像独立度量(99 BW)的性能支持对图像特定模型的需求,因为99 BW在所有图像恢复任务中都不会优于任何一个strip度量。
我们进一步比较了调整平均选择技术与全尺寸平均选择和随机基线的性能。从搜索空间中随机选取15个模型作为随机基线,然后采用调整大小平均法进行选择。表3显示了在两种选择规程下评估的随机基线、NAS-DIP[10]和PSD DB Strip MSE度量的最终PSNR得分。结果表明,PSD DB Strip MSE度量的性能明显优于随机选择。此外,由于特定于图像的模型需要,它对所有数据集的性能都更好。
平均技术的速度和性能之间存在折衷,尤其是在图像去噪方面。对于256 × 256灰度图像,优化速度约为5 ~ 8 it/s,而当图像大小调整为64 × 64时,优化速度上升到20 it/s。对于在15个模型中进行去噪的选择,调整大小平均技术需要大约15分钟,全尺寸平均技术需要37.5 ~ 60分钟。这些情况比NAS-DIP[10]选择要快得多,因为作者声称搜索总共持续了3天去噪。
我们注意到,我们在实验中与NAS-DIP进行比较的原因是它们优于以前的无学习DIP方法。
4.2.2 定性分析
图5显示了所有任务的几个图像的定性样本。一般来说,我们观察到恢复图像质量的明显视觉改善。例如,在去噪中,ISNAS-DIP可以更好地提取F16机翼顶部的缺口等细节。然而,在超分辨率方面,由于NAS-DIP[10]表现更好,我们没有观察到太大的改进。在去噪和修复方面的改进强调了在设计网络架构时考虑输入图像内容的重要性。
5. Conclusion, Limitations and Future Work
在这项工作中,我们证明了利用深度图像先验的最佳架构是图像相关的。基于这一见解,我们提出了几个指标,这些指标允许快速搜索特定于图像的神经网络架构,并表明发现的模型优于使用DIP的图像恢复任务的基准架构。此外,我们为DIP建立了一个NAS数据集,可用于未来研究特定于图像的NAS。
未来的工作仍有一些限制。我们表明,当N=15时,我们的指标能够选择包含最佳图像特定模型的子集。也就是说,我们将整个搜索空间缩小到只有15个模型。然而,我们在选择top-1模型方面仍然有限。目前的平均技术需要对N个模型进行优化。我们尝试在优化15个模型的同时使用调整大小的图像来加快优化过程,这表明了这一过程的速度。然而,它不能保证所选的是这个子集中最好的,而是接近平均值的那个。因此,在模型子集中选择最顶级的模型仍然是一个悬而未决的问题。
另一个问题是DIP的早期停止问题。在我们的实验中,我们对每个恢复任务使用固定次数的迭代。我们观察到所提出的指标与每张图像的最佳迭代次数之间存在显著的相关性(见补充)。这意味着度量对于确定所选模型训练的早期停止点也很有用。
此外,用于DIP实验的NAS数据集揭示了需要为不同类型的图像提供更合适的度量,因为图像的域会影响相关性。未来的工作需要实现学习的指标,而不是像我们这样手工设计的定义。为了做到这一点,可以使用深度学习模型。利用搜索空间,神经网络可以描述度量,神经网络可以使用CNN的输出和损坏的图像进行训练,以获得更好的度量公式。
Appendix
附录A. 概述
附录B. 深度图像先验
L d e n o i s i n g ( θ ) = ∥ f θ ( z ) − x 0 ∥ 2 , L i n p a i n t i n g ( θ ) = ∣ ∣ ( f θ ( z ) − x 0 ) ⊗ M ∣ ∣ 2 , L s u p e r r e s o l u t i o n ( θ ) = ∥ D ( f θ ( z ) ) − x 0 ∥ 2 . \begin{align} &\mathcal{L}_{denoising}(\theta)=\|f_{\theta}(z)-x_{0}\|^{2},\tag{3}\\\\ &\mathcal{L}_{inpainting}(\theta)=||(f_{\theta}(z)-x_{0})\otimes M||^{2},\tag{4}\\\\ &\mathcal{L}_{superresolution}(\theta)=\|D(f_\theta(z))-x_0\|^2.\tag{5} \end{align} Ldenoising(θ)=∥fθ(z)−x0∥2,Linpainting(θ)=∣∣(fθ(z)−x0)⊗M∣∣2,Lsuperresolution(θ)=∥D(fθ(z))−x0∥2.(3)(4)(5)
其中D(·)表示下采样算子,⊗表示逐像素乘法,M表示修复绘制掩码。
附录C. 指数平均
受DIP[5]的启发,我们取重建预测的平均值 x t x_t xt作为最终图像。与DIP[5]和NASDIP[10]不同,我们不仅对图像去噪进行了平均,而且对其他任务也进行了平均,因为我们看到它在所有任务中都大大提高了质量。请注意,我们对所有方法使用指数平均,即DIP [5], NAS-DIP[10]和ISNAS-DIP。具体表述如下:
x ⋆ = γ ( T − 1 ) ⋅ x 1 + ∑ t = 2 T x t ⋅ γ T − t ⋅ ( 1 − γ ) (6) x^{\star}=\gamma^{(T-1)}\cdot x_{1}+\sum_{t=2}^{T}x_{t}\cdot\gamma^{T-t}\cdot(1-\gamma) \tag{6} x⋆=γ(T−1)⋅x1+t=2∑Txt⋅γT−t⋅(1−γ)(6)
其中 x ∗ x* x∗表示最终结果,T表示总迭代次数, x t x_t xt表示第t次迭代时的恢复输出,并选择 γ γ γ为0.99。
附录D. 架构选择
我们绘制了NAS数据集中每个模型的归一化PSNR增加分数,如图6所示。每个子图表示不同图像对的归一化PSNR增加分数。根据参考图像(用蓝线表示)测量的归一化PSNR增加分数对模型进行排序,并对目标图像(用橙线表示)进行评估。我们选择“胸部”作为我们的参考图像,因为它属于不同的领域,而不是其他图像。
从图6中可以看出,虽然橙色线的趋势与参考图像明显相似;相同的模型往往表现不同。此外,参考图像的最差模型可能在目标图像上表现更好。
绿色和红色虚线之间的差距显示了在目标图像上评估的最佳参考图像模型和最佳目标图像模型之间的性能差异。例如,我们观察到胸部和芭芭拉图像的虚线之间有很大的差距,这是由于它们各自所属的域不同。
附录E. 最佳停止点之间的关系
我们观察到,同一搜索空间内不同模型的最优停止点不同,如图7所示。我们质疑最优停止点是否是一个架构属性。鉴于这些问题,我们报告了我们的指标和最佳停止点之间的相关性,如表4所示。令人惊讶的是,我们的指标和最佳停止点之间存在很强的相关性。我们的工作将通过进一步研究利用已证明的强相关性检测最佳停止点来扩展。