模糊耗散合成神经编解码器中的拉普拉斯熵模型
虽然用条件扩散模型代替高斯解码器,可以提高神经图像压缩中重建的感知质量,但它们缺乏对图像数据的感应偏差,限制了它们实现最先进感知水平的能力。为了解决这一局限性,在解码器侧采用了非各向同性扩散模型。该模型施加了一种感应偏置,旨在区分频率内容,从而促进高质量图像的生成。此外,改进的框架配备了一种新的熵模型,该模型通过利用潜在空间中的空间信道相关性来精确地模拟潜在表示的概率分布,同时加速熵解码步骤。这种信道熵模型利用了每个信道块内的局部和全局空间上下文。全局空间上下文建立在Transformer之上,Transformer是专门为图像压缩任务设计的。所设计的Transformer采用拉普拉斯形状的位置编码,其可学习参数针对每个信道簇进行自适应调整。实验表明,与前沿的基于生成的编解码器相比,提出的框架产生了更好的感知质量,并且提出的熵模型有助于显著节省比特率。
改进的神经编解码器概述,如图4-5所示。
图4-5 改进的神经编解码器概述
在图4-5中,基于扩散的解码器利用量化的语义潜在变量
来生成逼真的重建图像。
改进方法的熵模型在解码中的应用如图4-6所示。
图4-6 改进方法的熵模型在解码中的应用
在图4-6中,(a)改进方法的熵模型在解码第
个块
中的应用。(b)全局空间上下文块。(c)棋盘形面具的一个例子。
获取大小为2×2的窗口的拉普拉斯相对位置编码的过程,如图4-7所示。
图4-7 获取大小为2×2的窗口的拉普拉斯相对位置编码的过程