定义
神经辐射场是一种面向三维隐式空间建模的深度学习模型,这种深度学习模型又称全连接神经网络(又称多层感知机)。NeRF 所要做的任务是 Novel View Synthesis,一般翻译为新视角合成任务,定义是:在已知视角下对场景进行一系列的捕获 (包括拍摄到的图像,以及每张图像对应的内外参),不需要中间三维重建的过程,仅根据位姿内参和图像,合成新视角下的图像。在基于Nerf的表示方法下,三维空间被表示为一组可学习且连续的辐射场,由输入视角+位置学习后,得到密度+色彩。
https://zhuanlan.zhihu.com/p/597579341
关键技术
建模辐射光即是建模对应的颜色。而Nerf则是一组可以对上面渲染方程近似求解的MLP。这也就是Nerf的工作原理。在基于Nerf的表示方法下,三维场被表示为一组可学习且连续的辐射场。
不同于传统三维重建方法把场景表示为点云、网格、体素等显式的表达,它独辟蹊径,将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中,只需输入多角度的 2D 图像,就可以通过训练得到一个神经辐射场模型,根据这个模型可以渲染出任意视角下的清晰照片
https://baijiahao.baidu.com/s?id=1762143450036193524&wfr=spider&for=pc
NeRF 提出的隐式表达以空间点的坐标和观察者的视角、位置作为输入,输出则是点的 RGB 信息和占用密度。
NeRF 技术的核心思想是将场景中的每个像素都视为一个神经元,然后使用神经网络来学习这些神经元之间的关系,这种方法可以有效地提高场景的精度和真实感。
图像渲染
NeRF 采用了光线追踪的方法将隐式表示渲染为二维图像,光线追踪法就是沿着观察者眼里发射出光线,对光线进行采样取得每个采样点的 RGB 和密度信息,并使用体绘制技术将这些值合成图像。
输入输出
给定一组连续拍摄的图像+姿态,Nerf尝试使用光线位置、光照方向、对应三维坐标(x,y,z)为输入,输出目标的密度(形体)+颜色。输入共计五变量,也因此被称为“5D辐射场”。具体来说,给定空间点坐标(x,y,z)与观测方向(d_x,d_y,d_z中任意两个,第三个通过叉乘求出,俗称“知二得三”)可求解得该点的密度值(其实是光线在该点终止的概率)与对应的颜色(RGB值)。预测了颜色值,和当前姿态下对应的输入图片求损失,则可进行优化使模型逐步收敛。