MonoCD:具有互补深度的单眼3D物体检测
单眼3D对象检测因其能够以低成本,从单个图像中准确获得对象3D定位,而引起了广泛关注。由于2D到3D映射的不适定性,深度估计是单目3D对象检测的一个重要,但具有挑战性的子任务。许多方法探索多个局部深度线索,如物体高度和关键点,然后将物体深度估计公式化为多个深度预测的集合,以减轻单个深度信息的不足。然而,现有多个深度的误差往往具有相同的符号,这阻碍了它们相互抵消,并限制了组合深度的整体精度。为了缓解这个问题,建议通过两种新颖的设计来增加深度的互补性。首先,添加了一个名为互补深度的新深度预测分支,该分支利用来自整个图像的全局和有效深度线索,而不是局部线索,以降低深度预测的相似性。其次,建议充分利用多个深度线索之间的几何关系,实现形式上的互补。受益于这些设计,改进的方法实现了更高的互补性。在KITTI基准上的实验表明,改进的方法在不引入额外数据的情况下实现了最先进的性能。此外,互补深度还可以是一个轻量级的即插即用模块,以增强多个现有的单眼3d物体探测器。
MonoCD方法概述,如图4-20所示。
图4-20 MonoCD方法概述
在图4-20中,输入图像首先经过特征提取网络的处理,随后被引导到多个预测头中。预测头分为两部分。上橙色部分用于预测图像的全局水平热图,作为生成互补深度预测(zcomp)的全局搜索。下蓝色部分在预测每个感兴趣点的局部信息后,进一步生成关键点深度(zkey)和直接深度(zdir)。
最后,使用同时预测的不确定性对三个深度预测分支进行加权和组合,以获得最终深度估计。