论文阅读——Sat2Vid

Sat2Vid: Street-view Panoramic Video Synthesis from a Single Satellite Image

提出了一种新颖的方法,用于从单个卫星图像和摄像机轨迹合成时间和几何一致的街景全景视频。

即根据单个卫星图像和给定的观看位置尽可能真实地、尽可能一致地合成街景全景视频序列。

相关工作包括交叉视图合成(Cross-view synthesis)和视频合成以及神经渲染:

交叉视图合成的重点是从给定图像的一个完全不同的视角进行合成。目前该领域的大部分工作都是针对单幅图像的合成。一个非常典型的应用是从给定的卫星图像生成街景。

视频合成根据给定的输入有多种形式,大致可以分为以下三类。 (1) 无条件视频合成 , 通过将(空间)图像上的当前 GAN 框架进一步扩展到时间维度,从给定的输入随机变量生成视频剪辑。 (2)未来视频预测旨在根据目前的观察结果推断视频的未来帧。 (3) 视频到视频合成将视频从源域映射到目标域(例如,从一系列语义分割生成 RGB 图像)掩模或深度图像。

方法:

网络由多个子网络组成,负责在不同场景表示之间进行转换的三个处理阶段。

卫星阶段:输入的卫星图像由 2D U-Net 处理,生成具有相应语义的 2.5D 高度图。

转换阶段:为了获得 3D 表示,语义高度图被转换为语义体素占用网格。然后根据输入轨迹的采样点提取可见点。 

3D 到视频生成阶段:在 3D 域中运行的生成器从语义推断每个点的特征。级联的 SparseConvNet 和 RandLANet都具有沙漏结构,依次作用于粗略和精细生成。使用多类纹理编码器来计算输入卫星图像的多个潜在向量。

最后,具有级联特征的点云被投影到每一帧,最后使用轻量级网络进行上采样以使分辨率加倍。注:(1)3D-to-video生成阶段是在BicycleGAN[47]的框架下训练的; (2) 天空点包含在管道中,但此处未可视化; (3)特征用伪彩色表示。

Visible Points Extraction阶段:

与输入轨迹中的采样位置一起,我们创建仅包含可见点的点云并构建 3D-2D 对应关系。这对应于查找视频中每个像素的 3D 空间中的点的索引。每个像素都有唯一对应的3D点,并且3D空间中的每个点可以对应多个像素。相同的映射还将用于将彩色点云投影到视频帧上。

3D Generator:

在 3D 到视频生成阶段,我们首先从重投影语义推断 3D 空间中点云的特征。点的语义是根据每个点在水平面上的坐标从卫星语义中收集的。远处的点简单地标记为天空。所提出的 3D 生成器由 SparseConvNet和 RandLA-Net 组成,并具有级联连接。两个网络都纯粹在 3D 域中运行,并具有依次作用于粗略和精细生成的沙漏结构。最后,这些点被投影到帧上,这些帧通过轻量级上采样模块进一步转换为输出视频。

粗生成阶段基于体素。在此阶段开始时,首先根据目标体素大小对点云进行体素化。共享同一体素的多个点将被平均作为该体素的特征。在我们的实验中,体素大小设置为 3.125cm(每米 32 个体素)。 最后,网络的输出被去体素化为点云。同样,共享相同体素的点将被分配给相同的特征。

精细生成阶段基于点云。该阶段的输入是中间粗特征和来自跳跃连接的原始点语义的串联。

然后,视频帧中的每个像素根据变换阶段计算的点像素映射 M 从点云中的对应点收集粗略和精细特征。最后,上采样模块将分辨率加倍,将具有丰富特征的帧转换为输出RGB视频。

Multi-class Encoder:

我们使用多类纹理编码器来计算每个类的多个潜在向量,以丰富生成场景的多样性。我们的流程中使用的 BicycleGAN 中的编码器将地面真实街景 RGB 以及训练期间中心帧的语义作为输入。这里语义的作用是用于注意力池化的一个指标。获得整幅图像的特征图F后,编码器并不直接进行平均池化,而是对具有相同语义类别的像素的特征进行池化,最终获得多个潜在向量。

计算资源:a single Nvidia Tesla V100 GPU with 32GB memory.

实验结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/597865.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Easy云盘 | 第二篇】后端统一设计思想

文章目录 4.1后端统一设计思想4.1.1后端统一返回格式对象4.1.2后端统一响应状态码4.1.3后端统一异常处理类4.1.4StringUtils类4.1.5 RedisUtils类 4.1后端统一设计思想 4.1.1后端统一返回格式对象 com.easypan.entity.vo.ResponseVO Data public class ResponseVO<T> …

注意!今明两天广东等地仍有较强降雨

中央气象台监测显示 进入4月以来 我国江南、华南北部强降雨 接连而至 湖南、江西、浙江中南部 福建大部、广东中北部等地降雨量 较常年同期偏多1倍以上 上述地区部分国家观测站 日雨量突破4月历史极值 截至4月7日早晨 广东广州、惠州、清远 韶关、河源等地部分地区 …

JavaScript - 你能说出解决跨域的一些方案吗

难度级别:中高级及以上 提问概率:65% 回答解决跨域之前,首先建议求职者描述什么是跨域。跨域问题是浏览器基于同源策略引起的,同源策略是浏览器的一种安全功能。同源要保证域名相同,或是被访问服务的协议+主机+端口都相同,那么反之这些属…

每日一题|字符迁移【算法赛】|字符数组+前缀和+差分

每日一题|字符迁移【算法赛】 字符迁移 心有猛虎&#xff0c;细嗅蔷薇。你好朋友&#xff0c;这里是锅巴的C\C学习笔记&#xff0c;常言道&#xff0c;不积跬步无以至千里&#xff0c;希望有朝一日我们积累的滴水可以击穿顽石。 字符迁移 注意&#xff1a; 预习知识&#xf…

实景三维在文化旅游领域的应用

实景三维技术&#xff0c;作为一种前沿的科技手段&#xff0c;近年来在文化旅游领域的应用逐渐崭露头角。它能够将真实世界的场景以三维的形式精确呈现&#xff0c;为游客带来身临其境的体验&#xff0c;为文化旅游注入新的活力。本文将探讨实景三维在文化旅游领域的应用及其所…

c语言实现2048小游戏

#include <stdio.h> #include <stdlib.h> #include <time.h> #include <conio.h>int best 0 ;// 定义2048游戏的结构体 typedef struct { int martix[16]; // 当前4*4矩阵的数字 int martixPrior[16]; // 上一步的4*4矩阵的数字 int emptyIndex[16…

持续交付工具Argo CD的部署使用

Background CI/CD&#xff08;Continuous Integration/Continuous Deployment&#xff09;是一种软件开发流程&#xff0c;旨在通过自动化和持续集成的方式提高软件交付的效率和质量。它包括持续集成&#xff08;CI&#xff09;和持续部署&#xff08;CD&#xff09;两个主要阶…

YOLOv8改进 | 细节涨点篇 | 利用YOLOv8自带的RayTune进行超参数调优

一、本文介绍 本文给大家带来的改进机制是利用Ray Tune进行超参数调优,在YOLOv8的项目中目前已经自带了该超参数调优的代码,我们无需进行任何的改动,只需要调用该方法输入我们的一些指令即可,当然了,这些超参数的设置还是比较又学问的,本文的内容也是应群友的需求进行发…

(学习日记)2024.04.05:UCOSIII第三十三节:互斥量

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

吴恩达2022机器学习专项课程(一) 第二周课程实验:多元线性回归(Lab_02)

1.训练集 使用Numpy数组存储数据集。 2.打印数组 打印两个数组的形状和数据。 3.初始化w&#xff0c;b 为了演示&#xff0c;w&#xff0c;b预设出接近最优解的值。w是一个一维数组&#xff0c;w个数对应特征个数。 4.非向量化计算多元线性回归函数 使用for循环&…

通过自动化部署消除人为操作:不断提高提交部署比率

三十年后&#xff0c;我仍然热爱成为一名软件工程师。事实上&#xff0c;我最近读了威尔拉森&#xff08;Will Larson&#xff09;的《员工工程师&#xff1a;超越管理轨道的领导力》&#xff0c;这进一步点燃了我以编程方式解决复杂问题的热情。知道雇主继续照顾员工、原则和杰…

网络基础知识入门

目录 一、局域网与广域网 1、局域网 2、广域网 二、协议 1、概念 2、协议的理解 3、协议的分层 1、分层 2、OSI七层模型 三、网络传输基本流程 1、报头 2、局域网通信原理 3、跨网络传输流程 四、IP地址和MAC地址 1、IP地址 2、MAC地址 3、两者的区别 一、局域…