3DGStream:3D飞行训练实现照片级逼真自由视点视频的高效流式传输
5.13.1 3DGStream:3D飞行训练实现照片级逼真自由视点视频的高效流式传输概述
从多视图视频构建动态场景的逼真自由视点视频(FVV)仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显著进步,但这些方法通常需要完整的视频序列进行离线训练,并且无法进行实时渲染。
为了解决这些约束,引入了3DGStream,这是一种为真实世界动态场景的高效FVV流式传输而设计的方法。方法在12秒内实现了快速的飞帧重建,并实现了200 FPS的实时渲染。具体来说,使用3D高斯(3DG)来表示场景。采用紧凑的神经变换缓存(NTC)来模拟3DG的平移和旋转,而不是直接优化每帧3DG的天真方法,从而显著减少了每个FVV帧所需的训练时间和存储空间。
此外,提出了一种自适应的3DG添加策略来处理动态场景中的新兴对象。实验表明,与最先进的方法相比,3DGStream在渲染速度、图像质量、训练时间和模型存储方面具有竞争力。
5.13.2 3DGStream:3D飞行训练实现照片级逼真自由视点视频的高效流式传输技术分析3DGStream系统概况,如图5-51所示。
图5-51 3DGStream系统概况
在图5-51中,给定一组多视图视频流,3DGStream旨在在飞帧上构建捕获的动态场景的高质量FVV流。最初,优化了一组3DG来表示时间步0处的场景。对于每个后续的时间步i,使用时间步i−1中的3DG作为初始化,然后进行两阶段的训练过程:第一阶段:训练神经变换缓存(NTC)来模拟3DG的平移和旋转。训练后,NTC转换3DG,为下一个时间步和当前时间步的下一阶段做好准备。第二阶段:在潜在位置生成特定帧的额外3DG,并对其进行优化,同时进行周期性的分割和修剪。在两阶段过程结束后,转换和附加的3DG都用于在当前时间步i进行渲染,只有转换后的3DG被带入下一个时间步。
对Meet Room数据集的讨论场景和N3DV数据集的烤牛排场景进行定性比较,如图5-52所示。
图5-52 对Meet Room数据集的讨论场景和N3DV数据集的烤牛排场景进行定性比较
5.13.3 结论
提出了3DGStream,一种高效的FreeViewpoint方法视频流。基于3DG-S,利用有效的神经变换缓存来捕捉物体的运动。此外,提出了一种自适应3DG加法策略,可以准确地对动态场景中的新兴对象进行建模。两级管道3DGStream支持在线重建视频流中的动态场景。在确保照片级逼真图像质量的同时,3DGStream以百万像素分辨率实现了飞帧训练(每帧约10秒)和实时渲染(约200FPS),并具有适度的必要存储空间。