经典文献阅读之--U-BEV(基于高度感知的鸟瞰图分割和神经地图的重定位)

0. 简介

高效的重定位对于GPS信号不佳或基于传感器的定位失败的智能车辆至关重要。最近,Bird’s-Eye-View (BEV) 分割的进展使得能够准确地估计局部场景的外观,从而有利于车辆的重定位。然而,BEV方法的一个缺点是利用几何约束需要大量的计算。本文《U-BEV: Height-aware Bird’s-Eye-View Segmentation and Neural Map-based Relocalization》提出了U-BEV,一种受U-Net启发的架构,通过在拉平BEV特征之前对多个高度层进行推理,扩展了当前的最先进水平。我们证明了这种扩展可以提高U-BEV的性能高达4.11%的IoU。此外,我们将编码的神经BEV与可微分的模板匹配器相结合,在神经SD地图数据集上执行重定位。所提出的模型可以完全端到端地进行训练,并在nuScenes数据集上优于具有相似计算复杂度的基于Transformer的BEV方法1.7到2.8%的mIoU,以及基于BEV的重定位超过26%的召回率。

在这里插入图片描述

图1:U-BEV提出了一种新颖的BEV表示方法,通过环视图像实现在SD地图数据中高效的神经定位。

1. 主要贡献

在这项工作中,我们提出了一种新的方法来估计BEV(鸟瞰图),利用高度感知特征嵌入,使网络能够在深度维度上进行推理,而无需进行繁重的计算。基础架构受到了众所周知的U-Net结构的启发,并且由于整个模型中存在跳跃连接,可以保留细节。我们主张采用两步定位方法,自主代理首先在几米范围内全局估计其位置,然后依赖于局部方法获得应用所需的精度。因此,我们利用轻量级的标准定义(SD)地图数据,并旨在实现一次性重定位精度在10米以下。在这项工作中,我们将BEV表示与深度模板匹配器相结合,后者是端到端可训练的,用于实时重定位。定位架构可以通过将BEV方法和相应的地图数据编码为神经表示来处理任意BEV方法。这项工作将U-BEV与重定位模块相结合,优于nuScenes数据集上其他BEV方法和当代基于BEV的定位,其在10米处的召回准确度提高了26.4%。总之,本文提出了以下贡献:

  1. 一种新的轻量级U-BEV架构,其在几何上受到限制,并利用地面点的高度而不是它们相对于摄像机的深度。
  2. 一种端到端可训练的实时全局定位算法,用于神经BEV和神经编码的SD地图之间的定位。
  3. 在nuScenes数据集上改进了BEV(IoU提高了1.7到2.8)和定位性能(在10米处的召回准确度提高了26.4%)。

2. 方法

提议的完整算法在SD地图中定位一组环视图像。它从环视图像生成局部BEV表示,并从SD地图瓦片中生成神经地图编码,给定来自车载传感器(例如嘈杂的GPS信号和指南针)的粗略3D位置先验 ξ i n i t = ( x i n i t , y i n i t , ϕ i n i t ) ξ_{init} = (x_{init}, y_{init}, ϕ_{init}) ξinit=(xinit,yinit,ϕinit)。然后,深度模板匹配器将局部神经BEV滑动到全局神经地图上,生成相似度图。定位最终通过返回相似度图的Soft-Argmax完成。我们的方法概述如图2所示。

在这里插入图片描述

图2:U-BEV神经重定位模型概述。U-BEV从一组周围摄像头中预测局部BEV。预训练的编码器从中提取特征,生成神经BEV(左侧)。地图编码器根据位置先验 ξ i n i t ξ_{init} ξinit(右侧)从裁剪的全局SD地图中提取特征,构建神经地图表示。深度模板匹配模块(QATM)计算最佳匹配位置(中间)。

3. 鸟瞰图重建

我们提出了一种新颖的轻量级且准确的BEV架构,用于从一组环视图像中重建车辆周围的环境。我们的模型称为U-BEV,受到计算机视觉分割任务中广泛使用的U-Net [36]架构的启发。概述如图4所示。
给定一组6张图像及其内在和外在校准,我们预测一个BEV B ∈ R S × S × N B ∈ \mathbb{R}^{S×S×N} BRS×S×N,其中 S S S是BEV的像素大小, N N N是地图中可用标签的数量。我们使用后轮轴的中心作为原点,遵循nuScenes数据集中的惯例[37]。

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/699872.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI大事记(持续更新)

文章目录 前言 一、人工智能AI 1.基本概念 2.相关领域 2.1基础设施 2.2大模型 2.3大模型应用 二、大事记 2024年 2024-05-14 GPT-4o发布 2024-02-15 Sora发布 2023年 2023-03-14 GPT-4.0发布 2022年 2022-11-30 ChatGPT发布 总结 前言 2022年11月30日openai的…

百面算法工程 | 特征工程相关理论

本文给大家带来的百面算法工程师是深度学习特征工程的面试总结,文章内总结了常见的提问问题,旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中,我们还将介绍一些常见的深度学习的面试问题,并提供参考的回答及其理论基…

国产化开源鸿蒙系统智能终端RK3568主板在电子班牌项目的应用

国产化开源鸿蒙系统智能终端主板AIoT-3568A、人脸识别算法的的电子班牌方案可支持校园信息发布、人脸识别考勤、考场管理、查询互动等多项功能,助力学校在硬件上实现信息化、网络化、数字化,构建“学校、教师、学生”三个维度的智慧教育空间。 方案优势 …

PXI/PXIe规格 A429/717 航电总线适配卡

A429是一款标准的PXI/PXIe1规格的多协议总线适配卡。该产品最多支持36个A429通道,或32个A429通道加4个A717通道,每个A429和A717通道可由软件配置成接收或发送,可满足A429总线和A717总线的通讯、测试和数据分析等应用需求。 该产品的每个A429通…

【C++程序员的自我修炼】简单实现 string 库的常用接口函数

天接云涛连晓雾 星河欲转千帆舞 目录 string 类环境的搭建 实现 c_str() 函数 实现 size() 函数 重载运算符operator[] 实现简单迭代器 begin()、end() 实现 reserve() 函数 实现 push_back() 函数 实现 append() 函数 重载运算符operator 实现 insert() 函数 实现 erase() 函…

数据库的三大范式!!!初学者必看

数据库的三大范式!!!初学者必看 三大范式是 Mysql数据库设计表结构所遵循的规范和指导方法目的是为了减少冗余,建立结构合理的数据库,从而提高数据存储和使用的性能。 三大范式之间是具有依赖关系的,比如第…

产品经理也要学个PMP证书?

随着互联网行业竞争的加剧,越来越多的互联网公司将产品经理视为重点培养对象。为了提升自身能力,许多产品经理选择考取项目管理专业认证PMP(Project Management Professional)。那么,PMP对产品经理来说是否真的有帮助呢…

Spring学习①__Spring初识

Spring Spring初识一、框架二、Spring(春天)简介Spring官网Spring是什么?Spring介绍拓展 Spring初识 一、框架 ​框架就是一些类和接口的集合,通过这些类和接口协调来完成一系列的程序实现。 JAVA框架可以分为三层: 表示层业务…

HTML常见标签-标题标签

标题标签 标题标签一般用于在页面上定义一些标题性的内容,如新闻标题,文章标题等,有h1到h6六级标题 代码 <body><h1>一级标题</h1><h2>二级标题</h2><h3>三级标题</h3><h4>四级标题</h4><h5>五级标题</h5>…

如何在Goland中配置一键运行项目

打开goland,点击配置,如下图 点开如下, 选择go构建 上图中有以下几点需要注意&#xff1a; 1.名称&#xff1a;为本条配置信息的名称&#xff0c;可以自定义&#xff0c;也可以使用系统默认的值&#xff1b; 2.运行种类(Run kind)&#xff1a;main包的文件名称可能为其他 设置…

ubuntu使用交叉编译链编译FFTW动态库

一、从官方下载FFTW压缩包 1. 在 /usr/local 新建目录fftw目录&#xff0c; 将压缩包放在 /usr/local/fftw 中解压。 2.打开解压后的文件 导入环境变量&#xff1a; export PATH$PATH:/home/theer/workspace/a64/cqa64_linuxqt5.8_bv3s/buildroot-2017.02.3/output/host/…

什么是访问学者?如何申请访问学者?一文秒懂访问学者

一、什么是访问学者&#xff1f; 访问学者是指具有一定学术背景、科研能力或者工作经历的人&#xff0c;前往国外大学进行专业领域的短期进修学习。访问学者需要在规定时间内完成规定进修或研究计划&#xff0c;通常为几个月至一年。进修期间&#xff0c;访问学者可参加课程、…