HDR-HexPlane：首个针对高动态场景的HDR-NERF框架-编程知识

导读： 本文提出了一种可以高效学习HDR动态场景的神经辐射场方法——HDR-HexPlane。在新视图合成方面，该模型可以考虑过曝和欠曝的颜色区域，在动态HDR场景数据集上取得了最先进的结果。

论文标题：Fast High Dynamic Range Radiance Fields for Dynamic Scenes
论文作者：Guanjun Wu, Taoran Yi, Jiemin Fang, Wenyu Liu, Xinggang Wang
项目地址：https://guanjunwu.github.io/HDR-HexPlane/

1. 摘要

神经辐射场（NeRF）和它的扩展在三维场景表示和新视图图像合成方面显示表现优异。但是，大多数NeRF方法都采用低动态范围(LDR)图像，这可能会丢失场景细节，尤其是在不均匀照明的情况下。之前的一些NeRF方法试图引入高动态范围(HDR)技术，但还是针对静态场景。为了拓展HDR NeRF方法的应用场景，我们提出了一个动态HDR NeRF框架——HDR-HexPlane，它可以从动态2D图像中学习3D场景，这些图像是用不同的曝光值捕获的。我们构建了一个可学习的曝光映射函数来获得每个图像的自适应曝光值。基于单调递增的先验知识，设计了一个相机响应函数用于稳定学习。利用我们提出的模型，任何时间点的高质量新视图图像都可以用任何期望的曝光值渲染。我们进一步构建了一个包含多个动态场景的数据集，这些场景是用不同的曝光值捕获的，用于评估我们的方法。

在这里插入图片描述图1｜我们的方法可以从动态场景中合成不同视角和不同曝光度的图像，并生成HDR图像。通过应用色调映射函数，我们可以获得更好的颜色平衡，提高图像的视觉质量。

2. 文章贡献

• 提出了一种端到端的NeRF框架，即HDR-HexPlane，用于高动态范围动态场景表示，允许基于不同曝光水平捕获的图像对场景进行高效学习和新视图合成。HDR-HexPlane可以按需调整曝光水平，并考虑过曝和欠曝区域渲染平衡图像。

• 提出了一种自适应算法，用于有效准确地学习每幅捕获图像的曝光值，免除了相机曝光参数过程的要求。

• 制作了一个包含动态场景的数据集，这些场景是在单相机和多相机设置下以不同的曝光值捕获的。这个数据集可作为评估HDR动态场景中新视图合成的基准。

我们采用了基于HexPlane的表示来学习动态场景，并提出了一个学习图像曝光的模块。相机响应函数被设定为一个已知的Sigmoid函数。我们在Blender中构建了一个包含8个场景的数据集，每个场景包含80-700张图像。实验结果表明，与其他模型相比，我们的方法在大多数评估指标上都取得了显著提升，并将训练速度提高了10倍以上。

3. 方法详解

在这里插入图片描述图2｜我们的方法的整体框架。我们首先从相机中投射多条射线，并从每条射线上采样一系列点。这些点以及当前的时间戳和方向被输入到HexPlane模块中。HexPlane模块计算每个点的辐射值和密度，使我们能够使用体积渲染方程渲染HDR图像。同时，曝光映射模块学习每幅图像的对数曝光系数。我们将辐射值与使用相机响应函数计算的颜色相乘，然后使用体积渲染方程渲染对应的LDR图像。

3.1 预备知识

· HDR-NeRF

NeRF利用隐式场景表示和体积渲染方程，实现了高质量的新视图合成。HDR-NeRF引入了相机响应函数学习、色调映射和场景曝光时间的概念，使NeRF能够以不同的曝光值作为输入进行训练，并执行HDR视点合成。对每条射线通过沿着射线对一系列点进行采样。对于每个点和方向，HDR-NeRF采用MLP网络来计算对数空间灰度值和体积密度。

接着，结合对数曝光值，最后应用MLP来拟合相机响应函数，得到最终的空间颜色值。使用体积渲染方程将每个点沿射线的空间颜色值和体积密度聚合起来，得到像素颜色。

颜色值和曝光值是已知的，而辐射度和相机响应曲线是未知的。在这种情况下，将辐射值缩放并给相机响应曲线一个对数偏移可能会得到相同的结果。因此，使用零点约束将固定为一个常数，为相机响应函数提供了合适的先验知识。

总损失由重构损失和零点约束损失相加得到。

· HexPlane

HexPlane是一种有效的动态场景重建表示。它将时间和空间信息结合到6个可学习的参数平面中。

给定位置和时间，将它们作为查询向量，通过6个双线性插值和一个向量矩阵乘积来计算隐藏信息。同时，位置、时间和视角被编码成高维变量；然后将所有变量连接在一起，并输入到一个单独的MLP中，以输出空间颜色和密度。最后，使用体积渲染方程计算集成颜色。

3.2 整体框架

由于输入图像是在不同曝光值下捕获的LDR图像，场景的几何信息不随曝光变化而改变。在训练期间，对于每条射线的原点、方向和时间，我们在射线上的近端和远端之间进行采样，然后使用HexPlane计算点的体积密度和对数空间灰度值。

接着，我们用函数结合对数空间灰度值和对数曝光系数计算点的空间颜色值，其中曝光值由图像索引决定。

我们可以使用体积渲染方程计算最终结果。空间颜色值和体积密度被组合得到像素颜色，而空间灰度值和体积密度被用于计算像素灰度（整个框架如图2所示）

我们设计的模块显式地分离了动态场景的建模和场景照明的学习，从而解决了由于物体从暗区移动到亮区导致的多视角动态场景中的颜色不一致的问题。具体而言，我们让HexPlane独立于曝光学习动态场景，仅预测其空间灰度值和体积密度。曝光学习和相机响应函数模块然后将HexPlane输出的空间灰度值映射到不同曝光值的相应LDR值，与独立于曝光的体积密度相结合，从而渲染出具有几何一致性的LDR图像。

3.3 曝光映射

遵循传统的HDR图像恢复流程，我们也将空间灰度值和曝光值映射到对数域中。

在从不同视点执行射线采样时，可能会重复地选择某些点。根据体积渲染方程，这些采样点用于计算它们各自的空间颜色值。因此，对于由相同的相机设置但在不同曝光值下捕获的真实图像，颜色一致性仍然成立。因此，我们认为这些图像对应的曝光值可以联合优化。这一观察使我们相信，学习对应的曝光系数是可行的。具体而言，对于每个图像索引，我们为其分配一个特征嵌入，然后利用一个曝光来计算它的曝光值。

使用曝光MLP可以确保更平滑地优化曝光嵌入，并促进收敛。在我们的流程中，我们将相机响应函数指定为固定的，并将其设置为Sigmoid函数。相反，我们使用可训练的参数来学习曝光值。

3.4 相机响应函数

HDR-NeRF提出了一个可训练的相机响应函数（CRF）和已知的曝光值。当曝光值未知时，估计CRF和曝光值可能会变得困难。为了解决这个问题，我们将CRF固定为一个已知的函数，该函数应该满足以下条件：