利用协同嵌入模型超越多任务密集预测
5.7.1 利用协同嵌入模型超越多任务密集预测概述
多任务视觉场景理解旨在利用一组相关任务之间的关系,通过将它们嵌入到一个统一的网络中来同时解决这些问题。然而,从任务层面的角度来看,大多数现有方法都引起了两个主要问题:①不同任务缺乏独立于任务的对应关系;②忽视了各种任务之间明确的任务共识依赖关系。为了解决这些问题,提出了一种新的协同嵌入模型(SEM),它通过利用两种创新设计超越了多任务密集预测:任务内层次自适应模块和任务间EM交互模块。具体来说,构建的任务内模块整合了来自多个阶段的层次自适应密钥,能够以最佳的权衡有效地学习专门的视觉模式。此外,开发的任务间模块从各种任务之间的一组紧凑的互基中学习交互,这得益于期望最大化(EM)算法。
5.7.2 利用协同嵌入模型超越多任务密集预测技术分析
来自两个公共基准NYUD-v2和PASCAL上下文的大量实证证据表明,SEM在一系列指标上始终优于最先进的方法。
NYUD-v2数据集上的四个不同任务如图5-23所示。
图5-23 对于NYUD-v2数据集上的四个不同任务
在图5-23中,第一行显示真值(GT),第二行显示方法(改进的)的特征图(左)和预测(右),第三行显示多任务学习基线(MTLB)。直观地说,MTLB受到独立于任务的内部结构调查的影响,导致特征图混乱,单个任务的结果不令人满意。令人印象深刻的是,方法有效地缓解了上述局限性,从而从任务内和任务间的角度提高了性能,同时为多个场景理解任务实现了有竞争力的结果。
SEM的总体架构如图5-24所示。
图5-23 SEM的总体架构
在图5-23中,有两个主要的任务感知子模块:(a)任务内层次自适应模块,接收编码器生成的多级表示,并为解码器输出与任务无关的特征;(b)任务间EM交互模块,插入解码器级,用于学习任务共识相关性。
任务内层次自适应模块如图5-24所示。
图5-24 任务内层次自适应模块
在图5-24中,为了清楚起见,展示了两个阶段(即S=2)和每个阶段四个变形点(即
)的情况。
任务间EM交互模块的结构如图5-25所示。
图5-25 任务间EM交互模块的结构
NYUD-v2数据集上的四个任务如图5-26所示。
图5-26 NYUD-v2数据集上的四个任务
在图5-26中,对NYUD-v2数据集上的四个任务进行Ground Truth(GT)、SEM和TaskPrompter(TP)的视觉比较。
5.7.3 结论
介绍了一种基于Transformer的新型架构——协同嵌入模型(SEM),它克服了当前多任务密集预测方法的局限性。SEM提供了一种创新的任务内模块,该模块从分层编码器自适应地生成显著的键/值,以实现最佳权衡,以及一种基于任务间EM的交互,该交互迭代地从各种任务中学习一组紧凑的基,以确保鲁棒性。广泛的实验分析验证了SEM的有效性,在两个公共基准上证明了其与现有最先进方法的一致优势。