UniDepth:通用单目度量深度估计
精确的单目度量深度估计(MMDE)对于解决3D感知和建模中的下游任务至关重要。然而,最近MMDE方法的显著准确性与其训练领域不符。即使存在适度的域间隙,这些方法也无法推广到看不见的域,这阻碍了它们的实际应用。提出了一种新的模型UniDepth,能够从单个图像跨域重建度量3D场景。与现有的MMDE方法不同,UniDepth在推理时直接从输入图像中预测度量3D点,而无需任何额外信息,从而寻求一种通用且灵活的MMDE解决方案。特别是,UniDepth实现了一个自提示的相机模块,可以预测密集的相机表示,以调节深度特征。改进的模型利用了伪球面输出表示,该表示将相机和深度表示分开。此外,提出了一种几何不变性损失,以提高相机提示的深度特征的不变性。即使与直接在测试域上训练的方法相比,在零样本制度下对十个数据集的全面评估也始终证明了UniDepth的优越性能。
新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点,如图4-13中。
图4-13 新方法UniDepth可以直接预测场景中,只有一个图像作为输入的3D点
在图4-13中,UniDepth结合了相机自提示机制,并利用了由方位角、仰角和深度
定义的伪球面3D输出空间。该设计有效地将相机和深度优化分开,避免了由于深度相关误差(
)导致的相机模块的梯度。
UniDepth模型架构,如图4-14所示。
图4-14 UniDepth模型架构
在图4-14中,UniDepth仅利用输入图像来生成3D输出(
)。它从相机模块中引导密集的相机预测(
),通过交叉注意力层将场景尺度上的先验知识注入深度模块。相机表示对应于方位角和仰角。几何不变性损失(
)加强了基于不同几何增强(
,
)的相机的深度特征张量之间的一致性。停止梯度应用于摄像机模块的编码特征(
),以防止摄像机梯度主导编码器中的深度梯度。深度输出(
)是通过三个自关注块与可学习的2x上采样交织获得的。最终输出是相机和深度张量(
)的连接,为
创建了两个独立的优化空间。