通过知识提炼增强单视图场景的自监督方法
通过运动结构从图像中推断场景几何是计算机视觉中一个长期存在的基本问题。虽然经典方法和最近的深度图预测只关注场景的可见部分,但场景完成的任务旨在推理即使在遮挡区域中的几何形状。随着神经辐射效应(NeRF)的普及,隐式表示也通过预测所谓的密度效应在场景完成中流行起来。与显式方法(如基于体素的方法)不同,密度效应还允许通过基于图像的渲染进行精确的深度预测和新颖的视图合成。在这项工作中,建议融合多幅图像的场景重建,并将这些知识提炼成更精确的单视图场景重建。
为此,提出了多视图幕后(MVBTS)来融合来自多个姿势图像的密度效应,这些图像仅从图像数据中完全自监督训练。使用知识蒸馏,使用MVBTS通过称为KDBTS的直接监督来训练单视图场景完成网络。它在占用预测方面达到了最先进的性能,特别是在遮挡区域。
从多视角到单视角的知识提炼,如图4-27所示。
图4-27 从多视角到单视角的知识提炼
在图4-27中,建议通过利用来自多个图像的附加信息。a)训练了一种新的多视图场景重建算法,该算法能够以完全自监督的方式融合多幅图像的密度场。b)采用知识蒸馏来直接监督3D中最先进的单视图重建模型,以提高其性能。
密度预测技术概述,如图4-28所示。
图4-28 密度预测技术概述
在图4-28中,给定多个输入图像
,编码器-解码器骨干网预测每个图像的像素对齐特征图
(左上)。像素
的特征对
穿过像素
的光线的占用率和一致性分布进行编码。给定一个3D点
及其在不同相机图像中的投影
,提取相应的特征向量和位置嵌入
。多视图网络
将所有特征向量解码为密度预测
(中间)。与来自另一图像(
)的颜色样本一起,这可用于在基于图像的渲染管道中渲染新视图。
不需要靠近输入图像,因为方法可以预测遮挡区域的密度。通过使用接近
的图像
的光度一致性损失来训练网络(右)。