经典文献阅读之--LiDAR-based 4D Occupancy Completion and Forecasting(基于激光雷达的4D占用补全与预测)

0. 简介

本文介绍了基于激光雷达的4D占用补全与预测。场景补全与预测是自动驾驶汽车等移动智能体研究中的两个常见的感知问题。现有的方法独立地处理这两个问题,导致这两方面的感知是分开的。在《LiDAR-based 4D Occupancy Completion and Forecasting》中,我们在自动驾驶的背景下引入了一种新型的激光雷达感知任务,即占用补全与预测(OCF),以将这两方面统一到一个整体的框架中。这项任务需要新的算法来解决总共三项挑战:(1)稀疏到稠密重建;(2)部分到完整补全;(3)3D到4D预测。为了能够进行监督和评估,我们根据公开的自动驾驶数据集创建了一个大规模数据集,称为OCFBench。我们在数据集上分析了密切相关的现有基线模型和自己模型的性能。我们展望,本研究将激励并且呼吁在4D感知这一不断发展的重要领域内进行进一步研究。相关的代码已经在Github开源了。

在这里插入图片描述

图1. OCF与相关任务的区别。(a) 所有任务都以序列或单个LiDAR扫描作为输入。(b) SSC旨在在t = 0帧上进行稠密化、完整化和语义预测。(c) 点/占据预测输出场景几何运动场的稀疏和拉格朗日规范。(d) OCF以时空方式结合场景完整化和占据预测,输出密集的欧拉运动场。(d)中的颜色渐变表示z坐标。

1. 主要贡献

本文的贡献总结如下:

1)本文提出了占用补全与预测任务,其要求从稀疏的3D输入中获取空间-时间稠密的4D感知结果;

2)本文利用公开自动驾驶数据生成了一个大规模数据集,称为OCFBench;

3)本文提出了基线方法来处理OCF任务,并且基于本文数据集提供了一个详细的基准。


2. 具体方法

2.1 问题表述

我们的目标是在给定点云输入的情况下,完成并预测表示为空间-时间范围内的场景,即占据栅格。具体而言,如图2所示,我们将输入表示为连续的点云序列,表示为体素栅格 P = { P t } t = − T 0 P = \{P_t\}^0_{t=−T} P={Pt}t=T0。期望的输出是一系列完成的体素栅格 Y = { Y t } t = 0 T Y = \{Y_t\}^T_{t=0} Y={Yt}t=0T。每个输入和输出帧都是具有固定尺寸和相同坐标系的体素栅格,即 P t P_t Pt Y t ∈ { 0 , 1 } H × W × L Y_t ∈ \{0, 1\}^{H×W×L} Yt{0,1}H×W×L,其中二进制值0和1表示每个体素是否为空闲或占据。这里, T T T表示输入/输出序列的帧数,而 H H H W W W L L L分别表示体素栅格的高度、宽度和长度维度。在深度学习的背景下,我们的目标是训练一个神经网络 f θ f_θ fθ,尽可能地预测 Y ~ = f θ ( P ) \tilde{Y} = f_θ(P) Y~=fθ(P)与真实值 Y Y Y接近。
值得注意的是,这个表述与现有的点云/占据预测文献不同之处在于OCF需要预测复杂的稠密体素栅格。从统计上讲,完成的体素栅格几乎比稀疏的体素栅格多出18倍。如图1所示,这个更具挑战性的任务旨在提供对环境的全面表示,同时减轻传感器内外参数的影响。这种对环境的欧拉规范强调了对更高效和更稳健的感知的需求。

在这里插入图片描述

图2. OCF任务的示意图。输入以从 t = − T t = -T t=T t = 0 t = 0 t=0的稀疏LiDAR扫描序列的形式提供。输出是从 t = 0 t = 0 t=0 t = T t = T t=T的稠密和完整的体素序列。颜色渐变表示每个体素的z坐标。所有点云和体素都以 t = 0 t = 0 t=0的坐标框架表示。黄色边界框突出显示了典型的移动物体。顶部行的图像仅用于可视化,不包含在输入中。最佳观看效果请查看彩色图。

2.2 基础算法

2.2.1PCF

我们从[11]中提出的结构中得出这个基准线,该结构是从[10]和[53]中改编而来的。我们省略了深度渲染模块,以使其与OCF问题兼容。该模型具有简单的基于卷积的编码器-解码器结构。[11]中使用的一种技术是将张量重塑并将时间维度连接到高度上,从而将4D体素张量适应于2D卷积层。请注意,我们的改编是根据OCF问题的表述进行的,利用了前面提到的损失函数。因此,它与[11]中的原始模型不能直接进行比较。

2.2.2 ConvLSTM

这是一种广泛应用于序列结构化数据的模型结构,由[18]提出,并在视频感知、预测、预测和生成等领域有着众多应用。该模型结构通过用卷积层替换LSTM模块中的线性层,将卷积神经网络和循环神经网络的优势结合起来。在我们的实现中,我们使用基本结构中的卷积块,但去除了连接步骤。我们为所有输入帧使用共享的2D卷积编码器,并将时间特征递归地馈送到LSTM模块中。

2.2.3 3D卷积

将时间维度与高度维度连接起来并不直观,因为它无法利用3D输入中的归纳偏差,并且会使模型对每个时间帧之间的关系产生困惑。相反,处理3D结构化数据的一种更直观的方法是使用3D卷积层[19]。我们通过用3D卷积层替换基本结构中的2D卷积层来实现这个结构。虽然这意味着更大的内存占用,但我们的实验证明训练过程能够适应单个GPU。


2.3 损失函数

2.3.1 BCE损失

由于每个体素的真实值为0/1(表示自由或占用),我们将训练视为每个体素的二分类任务。因此,我们采用二元交叉熵(BCE)损失进行模型训练。在批量训练过程中,损失值在每个帧上进行平均。

2.3.2 Soft-IoU损失

Soft-IoU最初在[54]中引入,主要用作评估模型预测置信度的指标。作为副作用,该指标的软性使其可微分,并可用作损失函数。所提出的损失函数为:

在这里插入图片描述

其中 C C C是小批量, V V V是一个样本中的体素集合, y y y是以 { 0 , 1 } \{0, 1\} {0,1}表示的真实占据情况, y ~ \tilde{y} y~是每个体素的预测占据概率。需要注意的是,这个损失函数不仅融合了IoU的概念,还使模型能够更自信地进行预测。在我们的实验中,我们使用BCE和soft-IoU损失的总和来训练3D卷积模型。


3. 数据整理

3.1 处理挑战和技术

3.1.1 概述

阻碍基于占用的感知发展的关键障碍之一是在现实世界中捕获真实占用的困难。虽然激光雷达传感器能够为扫描点提供准确的占用信息,但是密度与成本之间的权衡使得无法获得环境中所有物体和结构的密集占用。此外,由于传感器依赖于光探测和测距,遮挡造成了额外的挑战,特别是在自动驾驶场景中,大量动态物体导致大面积的遮挡。之前的研究[6],[16],[17]提出了一些解决这些挑战的方法。我们在下面的段落中回顾了其中一些方法,并引入了新的方法。

3.1.2 “空间-时间管道”

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/697784.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Llama3中文聊天项目全能资源库

Llama3 中文聊天项目综合资源库,集合了与Lama3 模型相关的各种中文资料,包括微调版本、有趣的权重、训练、推理、评测和部署的教程视频与文档。1. 多版本支持与创新:该仓库提供了多个版本的Lama3 模型,包括基于不同技术和偏好的微…

01 | 为什么需要消息队列?

哪些问题适合使用消息队列来解决? 1. 异步处理 2. 流量控制 使用消息队列隔离网关和后端服务,以达到流量控制和保护后端服务的目的。 3. 服务解耦 无论增加、减少下游系统或是下游系统需求如何变化,订单服务都无需做任何更改&#xff0c…

免费的GPT4终于要来了!OpenAI直播发布会详细解读!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

sql注入中的替换技巧。

目录 1:注释的替换 2:空格替换 3:大小写混合绕过及双写绕过 4:等号的绕过 5:单双引号的绕过 1:注释的替换 注释在sql注入中非常重要,因为会使用它来闭合我们注入的sql语句。 当以get方式提…

通过钉钉卡片进行工单审批

我们通常通过钉钉机器人来发送通知,提醒审批人名下有待办工单需要处理。这种通知方式仅能提醒审批人到ITSM中处理,审批人需要打开电脑登陆平台处理,我们就考虑是否能有一种方式能够满足移动端审批? 这里我们可以使用ITSM的移动端版…

使用Pyramid、Mako和PyJade生成 HTML

Pyramid 是一个流行的 Python Web 框架,而 Mako 和 PyJade 是用于模板引擎的工具,它们可以与 Pyramid 配合使用来生成 HTML 内容。但是在实际使用中还是有些差别的,尤其会遇到各种各样的问题,下面我将利用我所学的知识一一为大家解…

Django模型进阶

接上一节 4.查询数据 在Django中,正向查询(Forward Query)和反向查询(Reverse Query)是ORM(Object-Relational Mapping,对象关系映射)中用于处理数据库表间关系时的两种查询方式&a…

江门水文分局开展防灾减灾主题宣传活动

5月11日,第16个全国防灾减灾日到来之际,广东省水文局江门水文分局联合江门市五邑义工联合会直属义工服务总队(亲子服务队)在江门市万达广场举办了一场别开生面的防灾减灾主题宣传活动,进一步培育孩子们的防灾减灾的意识…

FPGA verilog LVDS通信协议笔记

一幅图胜过千言万语 直接开始挫代码,先写top.v。 module top();reg clk; // 生成时钟的寄存器 reg rst; // 生成复位信号的寄存器initial clk 1; // 初始值取1 always #1 clk ~clk; //1ns取反一次initial begin // 复位信号,先0,过段时间赋…

4.2 文本相似度(三)

换个思路,再训练一次。 1 基本框架 试想,如果有一个语句需要从预料库中匹配,每一次匹配都会伴随着大量的耗时: 一次匹配20ms, 1 000 000次呢,1 000 000 *20/ 1000 20 000S ~5.56H。效率极其的低&#x…

【PB案例学习笔记】-01创建应用、窗口与控件

写在前面 这是PB案例学习笔记系列文章的第一篇,也是最基础的一篇。后续文章中【创建程序基本框架】部分操作都跟这篇文章一样, 将不再重复。该系列文章是针对具有一定PB基础的读者,通过一个个由浅入深的编程实战案例学习,提高编…

今天开发了一款软件,我竟然只用敲了一个字母(文末揭晓)

软件课题:Python实现打印100内数学试题软件及开发过程 一、需求管理: 1.实现语言:Python 2.打印纸张:A4 3.铺满整张纸 4.打包成exe 先看效果: 1. 2.电脑打印预览 3.打印到A4纸效果(晚上拍的&#x…