MapTR 论文研读

MapTR 论文研读

MapTR论文 :https://arxiv.org/pdf/2208.14437.pdf

代码:https://github.com/hustvl/MapTR

MapTR(来自地平线)

1.摘要

作者们提出了一种有效构建高清地图的方法(MapTR),该地图为自动驾驶系统的规划提供丰富且精确的环境信息。这是一种结构化端到端变换器,用于高效在线矢量化地图构建。作者提出了一种统一的等价排列建模方法,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。他们设计了一种分层查询嵌入方案,以灵活地编码结构化地图信息,并对地图元素学习进行分层二分匹配。在nuScenes数据集上,与现有的基于相机输入的矢量化地图构建方法相比,MapTR实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度运行(25.1 FPS),比现有的最先进的基于相机的方法(VectorMapNet C)快8倍,同时实现了5.0的mAP提高。与现有的最先进多模态方法相比,MapTR-nano(VectorMapNet C&L)实现了0.7的mAP的提高,而MapTR-tiny实现了13.5的mAP的提高和3倍的推理速度。丰富的定性结果显示,MapTR在复杂和各种驾驶场景中保持了稳定且鲁棒的地图构建质量。MapTR在自动驾驶领域具有重要的应用价值。

2. 论文贡献

本文的贡献可以总结如下:

• 提出了一种统一的等价排列建模方法,用于地图元素,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。

• 基于这种新颖的建模方法,设计了MapTR,一种用于高效在线矢量化高清地图构建的结构化端到端框架。作者设计了一种分层查询嵌入方案,以灵活地编码实例级和点级信息,执行地图元素学习的分层二分匹配,并利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

• MapTR是首个实时且最先进的矢量化高清地图构建方法,在复杂和各种驾驶场景中都具有稳定而强大的性能。

image

image

早期的研究(Chen等,2022a; Liu等,2021a; Can等,2021年)利用线形先验知识,基于前视图像来感知开放形式车道。然而,它们受限于单视角感知,无法处理具有任意形状的其他地图元素。

Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei
Geng, Hongyang Li, Con-

ghui He, Jianping Shi, Yu Qiao, and Junchi Yan. Persformer: 3d lane
detection via perspective

transformer and the openlane benchmark. In ECCV, 2022a.

Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane
shape prediction with transformers. In WACV, 2021a.

Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, and Luc Van
Gool. Structured bird’s-eye-view traffic scene understanding from
onboard images. In ICCV, 2021.

随着俯视图BEV的发展,最近的研究(Chen等,2022b; Zhou&Kr¨ahenb¨uhl,2022年; Hu等,2021年; Li等,2022c年)通过进行BEV语义分割来预测光栅化地图。然而,光栅化地图缺乏矢量化的实例级信息,例如车道结构,这对于下游任务(例如运动预测和规划)很重要。

Shaoyu Chen, Tianheng Cheng, Xinggang Wang, Wenming Meng, Qian Zhang,
and Wenyu Liu. Efficient and robust 2d-to-bev representation learning
via geometry-guided kernel transformer. arXiv preprint
arXiv:2206.04584, 2022b.

Brady Zhou and Philipp Krähenbühl. Cross-view transformers for
real-time map-view semantic segmentation. In CVPR, 2022.

Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu,
Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view
representation from multi-camera images via spatio temporal
transformers. In ECCV, 2022c.

为了构建矢量化的HD地图,HDMapNet(Li等,2022a年)将像素级别的分割结果进行分组,这需要复杂而耗时的后处理。

Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map
construction and evaluation framework. In ICRA, 2022a.

VectorMapNet(Liu等,2022a年)将每个地图元素表示为一个点序列。它采用级联的粗到精的框架,并利用自回归解码器按顺序预测点,从而导致了较长的推理时间。

Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet:
End-to-end vectorized hd map learning. arXiv preprint
arXiv:2206.08920, 2022a.

不同于目标检测,其中目标可以很容易地几何抽象为边界框,矢量化地图元素具有更动态的形状。为了准确描述地图元素,作者提出了一种新颖的统一建模方法。将每个地图元素建模为一个具有一组等价排列的点集。点集确定了地图元素的位置。排列群包括了点集的所有可能的组织顺序,对应于相同的几何形状,避免了形状的歧义

基于等价排列建模,作者设计了一个结构化框架,以车载摄像头的图像作为输入,并输出矢量化的高清地图。作者将在线矢量化高清地图构建流程简化为一个并行回归问题。作者提出了分层查询嵌入,以灵活地编码实例级和点级信息。都是通过统一的Transformer结构同时预测所有实例和实例中的所有点。训练过程被形式化为一个分层集合预测任务,作者进行分层的二分匹配来依次分配实例和点。作者利用提出的点对点损失边缘方向损失点和边缘级别的几何形状进行监督。

凭借所有提出的设计,作者呈现了MapTR,一种高效的端到端在线矢量化高清地图构建方法,具有统一的建模和架构。在nuScenes(Caesar等,2020年)数据集上,MapTR在现有的矢量化地图构建方法中实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度(25.1 FPS)运行,比现有最先进的基于相机的方法快8倍,同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比,MapTR-nano实现了0.7倍的mAP提高和8倍的推理速度,而MapTR-tiny实现了13.5倍的mAP提高和3倍的推理速度。正如可视化显示的(图1),MapTR在复杂和各种驾驶场景中保持了稳定而强大的地图构建质量。

3. 其他相关工作

1.HD地图构建

近年来,随着2D到BEV方法的发展(Ma等,2022年),HD地图构建被定义为基于车载摄像头捕获的全景视图图像数据的分割问题。

Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming
Wang, Y. Qiao, Ruigang Yang, Dinesh Manocha, and Xinge Zhu.
Vision-centric bev per

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/218125.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

明道云伙伴成果与展望

摘要:这篇文章介绍了明道云在过去一年的成果以及未来的计划。明道云将把更多资源和精力投入到伙伴身上,提供更全面的支持,包括产品特性、展业支持和 GTM (Go-To-Market)支持三个方面。在产品特性方面,明道云…

基于51单片机的人体追踪可控的电风扇系统

**单片机设计介绍, 基于51单片机超声波测距汽车避障系统 文章目录 一 概要概述硬件组成工作原理优势应用场景总结 二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 # 基于51单片机的人体追踪可控的电风扇系统介绍 概述 该系统是基于51…

【数据结构实验】图(一)Warshall算法(求解有向图的可达矩阵)

文章目录 1. 引言2. Warshall算法原理2.1 初始化可及矩阵2.2 迭代更新可及矩阵 3. 实验内容3.1 实验题目(一)输入要求(二)输出要求 3.2 算法实现 4. 实验结果 1. 引言 Warshall算法是一种用于求解有向图的可达矩阵的经典算法。该算…

QQ空间上传一次 500张限制突破记录

手机又好多照片了,用手机上传耽误时间,就导出到电脑了,上传到qq空间去。 结果发现不开通黄钻无法上传原图,那就开通吧! 开通了黄钻,居然不能一次上传超过 500 张,开通有何用? 五千…

Python pandas数据分析

Python pandas数据分析: 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其…

c语言内存管理

通常程序访问的是虚拟内存,虚拟内存映射到物理内存的一小部分。 在Linux系统中,虚拟内存默认为4G的大小。每个进程都有独立的4G内存地址空间。 int main() {char s[] "hello world"; //s数组位于栈区,复制了一份字符串到数组里ch…

在Python中matplotlib函数的plt.plot()函数的颜色参数设置,以及可以直接运行的程序代码!

文章目录 前言一、使用字符串颜色:二、使用十六进制颜色:三、使用RGB元组:四、使用颜色映射:总结 前言 在matplotlib中,plt.plot()函数可以接受颜色参数,可以设置为字符串颜色(如red&#xff0…

用Python进行数据分析:探索性数据分析的实践与技巧(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

【ArcGIS Pro微课1000例】0038:基于ArcGIS Pro的人口密度分析与制图

文章目录 一、人口密度二、人口密度分析1. 点密度分析2. 核密度分析三、结果比对一、人口密度 人口密度是指单位土地面积上居住的人口数,通常以每平方千米或每公顷内的常住人口为单位计算。人口密度同资源、经济密切结合,因此,科学准确地分析人口密度的分布情况,对合理制定…

林业无人机如何提升巡山护林效率?

在郁郁森林之上,一架无人机正盘旋在上空时刻观察着林区的情况。凭借复亚智能的全自动巡检系统,无人机巡山护林的巡视范围和反馈实时性得到了显著提升。 一、林业无人机:科技赋能森林防火 秋季林区时常发生火灾,林业无人机在森林防…

Linux后台运行Python的py文件,如何使ssh工具退出后仍能运行

常规运行 python3 mysqlbak.py ssh工具退出后,或ctrlc中断后,程序将不在运行 后台运行 nohup python3 mysqlbak.py > mysqlbak.log & > mysqlbak.log为可选项,输出日志到指定文件,如果不写,输出日志到nohup…

Vue框架学习笔记——事件处理

文章目录 前文提要事件处理的解析过程,v-on:事件名样例代码如下:效果展示图片:v-on:事件名"响应函数"v-on简写形式响应函数添加响应函数传参占位符"$event"注意事项 前文提要 本人仅做个人学习记录,如有错误…