地平线占用预测 FlashOcc 参考算法-V1.0

1.简介

3D Occupancy Networks 的基本思路是将三维空间划分成体素网格,并对每个网格进行各类感知任务的预测。目前以网格为中心的方法能够预测每个网格单元的占用率、语义类别、未来运动位移和实例信息。3D occupancy 可以对道路障碍物进行更细粒度的划分,同时获取更精确的占用和语义信息。然而,三维体素表示的处理带来了巨大的内存和计算开销,导致当前占用率预测方法的部署受到限制。FlashOcc 作为即插即用的占用网络,在保持精度的同时实现了更快的推理速度和更低的内存消耗。本文将介绍 FlashOcc 在地平线征程 6E/M 平台上的优化部署。

2.性能精度指标

3.公版模型介绍

FlashOcc 在该领域做出了开创性的贡献,成功地以惊人的精度实现了实时 surround 视图 3D 占用预测。此外,在不同的车载平台上部署时表现出更强的通用性,因为它消除了对昂贵的体素级特征处理的需要,其中避免了视图变换器或 3D(可变形)卷积算子。如下图所示,FlashOcc 的输入为 6 张图像(前后视角+周视),输出是密集占用预测结果。

FlashOcc 网络主要由 5 个部分组成:

  • 2D 图像编码器:使用 ResNet50+FPN 从多视角图像中提取多尺度图像特征;
  • 视图转换模块:使用 LSS 实现从 2D 感知视图图像特征到 3D BEV 表示的映射;
  • BEV 编码器:提取 BEV 空间的特征,并结合了多尺度的 BEV 特征来提升特征表示质量;
  • 占用预测模块:由多层 Conv 或者复杂的多尺度特征融合模块组成,该模块预测每个体素的分割标签;
  • 可选的时间融合模块:由时空对齐模块和特征融合模块组成,增强对动态目标或属性的感知。

4.地平线部署优化

改动点说明:

  1. 输入图像大小:由公版的 256x704 调整为 512x960;
  2. BEV 网格大小:由公版的 200x200 调整为 128x128;
  3. Image encoder backbone:使用地平线深度优化的高效 backbone HENet 替换公版中的 ResNet50;
  4. Bev encoder backbone:使用地平线深度优化的高效 backbone HENet 替换公版模型中的 CustomResNet;
  5. 视图转换模块:使用地平线针对性优化后的 LSSTransformer 来替换公版中的 bevpooling 实现的 LSSViewTransformer,且移除了公版中的时序融合模块;

4.1 性能优化

4.1.1 Backbone

Image Encoder 采用了 HENet+FPN 来提取 6V 图像的多尺度特征,不仅在精度上可与 ResNet50 相媲美,而且在性能上有显著优势,这里的 FPN 采用的是地平线的高效实现,相对于公版更加高效。BEV Encoder 同样采用了 HENet+BiFPN 来提取 BEV 特征,BiFPN 这种重复双向跨尺度连接的结构,可以更好地实现梯度传播,从而实现 BEV 特征的多尺度融合。

HENet 是针对 J6 平台专门设计的高效 backbone,其采用了纯 CNN 架构,总体可分为四个 stage,每个 stage 会进行 2 倍下采样。以下为总体的结构配置:

depth = [4, 3, 8, 6]
block_cls = ["GroupDWCB", "GroupDWCB", "AltDWCB", "DWCB"]
width = [64, 128, 192, 384]
attention_block_num = [0,0,0,0]
mlp_ratios, mlp_ratio_attn = [2, 2, 2, 3], 2
act_layer = ["nn.GELU", "nn.GELU", "nn.GELU", "nn.GELU""]
use_layer_scale = [True,True,True,True]
final_expand_channel, feature_mix_channel = 0,1024
down_cls = ["S2DDown", "S2DDown", "S2DDown", "None"71

模型相关细节可以参考 HENet 高效模型相关介绍。

代码路径:/usr/local/lib/python3.10/dist-packages/hat/models/backbones/henet.py

4.1.2View transformer

View transformer 采用地平线深度优化后的 LSSTransformer,替换 J6 平台暂不支持的 bevpooling,从而高效地将图像特征转换到 BEV 空间。为了进一步提升性能,将 bev grid size 由公版的 200x200 调整为了 128x128。LSSTransformer 主要的工作流程如下所示:

View transformer 主要包括分为 3 个部分:

  1. 生成深度特征
  2. 对深度特征和图像特征做 bev 坐标转换
  3. 生成视锥点云特征(frustum features)

接下来将对这三个部分的具体代码实现进行介绍:

生成深度特征

View transformer 是基于图像特征,经过卷积层生成了 depth 为 45 的 depth_feature,并使用 softmax 计算 depth_feature 的 score 值。对应代码如下所示:

self.depth_net = ConvModule2d(in_channels=in_channels,out_channels=depth,kernel_size=1,padding=0,stride=1,bias=False,
)
depth = self.softmax(self.depth_net(feats))

代码路径:/usr/local/lib/python3.10/dist-packages/hat/models/task_modules/view_fusicon/view_transformer.py

生成 BEV 特征

为了减少计算量,LSSTransformer 首先将图像特征和深度特征分别转换到 BEV 视角下,然后对二者进行点乘计算。其中,图像特征转换到 BEV 空间的采样坐标 points 的生成在_gen_reference_point函数中,计算逻辑如下:

生成视锥点云特征

为了不遗失坐落在相同 voxel 中的点云特征,将对每个 voxel 都采样 10 次,最终将每个点云特征相加得到 BEV 特征图。对应代码:

 class LSSTransformer(ViewTransformer):...def ``_spatial_transfom(self``, feats, points):...for i in range(self.num_points):#将图像特征转换到 BEV 视角下homo_feat = self.grid_sample(feat,#[1, 64, 96, 30]fpoints[i * B : (i + 1) * B],)#将深度特征转换到 BEV 视角下homo_dfeat = self.dgrid_sample(dfeat,#[1, 1, 270, 480]dpoints[i * B : (i + 1) * B],)#生成视锥点云特征homo_feat = self.floatFs.mul(homo_feat, homo_dfeat)#[1, 64, 128, 128]homo_feats.append(homo_feat)trans_feat = homo_feats[0]for f in homo_feats[1:]:trans_feat = self.floatFs.add(trans_feat, f)return trans_feat #[1, 64, 128, 128]

4.2 精度优化

FlashOcc 采用以下策略提升浮点精度:

模型结构优化:使用更多地平线进行针对性优化后的结构,包括 backbone、view_transformer、bevencoder 等,浮点精度相对于公版有所提升;

加载预训练权重:加载 HENet 的浮点预训练权重。

总结与建议

5.1 训练建议

  1. 浮点训练时加载 HENet 的预训练权重;

5.2 部署建议

选择合适的 BEV Grid 尺寸

从图像空间到 BEV 空间的转换,是稠密特征到稠密特征的重新排列组合,计算量比较大,与图像尺寸以及 BEV 特征图尺寸成正相关。若要保持 BEV Grid 的分辨率不变(比如 0.5m/格),则需要大大增加 BEV 特征图的尺寸,从而使得端上计算负担和带宽负担都过重;若保持 BEV 特征图的尺寸不变,则需要使用更粗粒度的 BEV Grid,感知精度就会下降(每个 grid 的尺寸增加)。所以在模型设计之初,综合考虑模型的精度和性能以选择合适的 BEV Grid 尺寸。

使用高效 backbone 提取特征

建议选择 征程6 平台高效 Backbone 来搭建模型,高效 Backbone 经过在 征程6 平台的迭代优化和验证,相比其它公版 Backbone,在性能和精度上可以取得更加出色的效果,因此选取 征程6 平台高效 Backbone 来搭建模型可以对整个场景模型带来性能和精度的增益。

附录

  1. 论文:FlashOcc
  2. 公版模型代码:Github-FlashOcc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/799521.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手脱upx

其实已经是大一下刚开始的事情了,补个档 手动脱壳の新年快乐 查壳,有壳,UPXX32dbg打开文件,查看初始断点点击PUSHAD跟进,CTRL+*设置EIP,开始F8步过,寻找ESP寄存器第一次单个变红的地址此时的内存窗口开始步过第一次步过就发现ESP单个变红,右键跟进内存窗口然后在第一个…

使用firemin降低火狐内存占用

这些年一直使用火狐浏览器,之前一直在AMD平台的机器使用,没有遇到过内存占用过大的问题(可能也与平台无关)。现在在Intel CPU的机器上使用,时间一久,内存就占用很大。试过Firefox/内存消耗严重里面的办法,效果不明显。也试过修改about:config里面的一些选项,也没有达到…

代码随想录算法 - 回溯算法1

题目1 77. 组合 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1: 输入:n = 4, k = 2 输出: [[2,4],[3,4],[2,3],[1,2],[1,3],[1,4], ]示例 2: 输入:n = 1, k = 1 输出:[[1]]提示:1 <= n <= 20 1 <= k…

错误

PID自己搭的时候,要注意积分模块的位置,搞不明白好久了,原来是我把积分模块的位置放错了。直接用增益模块不容易出错。

OSG开发笔记(三十):OSG加载动力学仿真K模型文件以及测试Demo

前言Osg需要打开模型文件,但是遇到显示动力学仿真的K模型文件,.k文件是一种描述材料属性的文件,比如密度、弹性模量等,该模型文件不是常规中间开放格式,无法直接支持,需要自定义解析并且重建三维模型。 Demo实际非常流程,因为视频转gif导致部分看起来不行:   交互流畅…

0918高数一千题,多元函数积分学

T17.第一型曲线积分空间形式 用斯托克斯公式化成第二型曲面积分 解第二型曲面积分,用高斯公式或者投影转换法,后者注意正负号,上正下负,前正后负 T18.换路径,但是x=1左半段不能化成lnx算 T19.求偏导就对对应字母求就行,不用对y导x T20.多元极值AC-B2>0A>0,极小 A<…

Dynamic Locomotion in the MIT Cheetah 3 Through Convex Model-Predictive Control

1. Swing Leg Control\(J_i \in R^{3*3}\) 是足端雅可比;\(\tau _{i,ff}\) 是前馈力矩 \(\Lambda \in R^{3*3}\)是操作空间惯性矩阵;\(a_{i,ref} \in R^{3*3}\)是机体坐标系下的参考加速度 q是关节角度;\(C_i \dot{q}_i + G_i\)是科里奥利力和重力 2. Ground Force Control …

多机训练时的环境变量

多机训练时的环境变量 通过设置环境变量配置分布式训练,仅仅是为了在交互式 Python 环境下,方便查看实验效果。如果不是学习、试验目的,而是生产需求,可以直接通过 oneflow.distributed.launch 启动分布式训练,该模块内部根据命令行参数,自动设置了必要的环境变量。 1)M…

[Java基础]Stream流

当我第一次阅读 Java8 中的 Stream API 时,说实话,我非常困惑,因为它的名字听起来与 Java I0 框架中的 InputStream 和 OutputStream 非常类似。但是实际上,它们完全是不同的东西。 Java8 Stream 使用的是函数式编程模式,如同它的名字一样,它可以被用来对集合进行链状流式…

学习高校课程-软件工程-软件工程(ch2)

DEFINING THE DISCIPLINE THE SOFTWARE PROCESS General Principles2.1 DEFINING THE DISCIPLINE definition for software engineering 软件工程的定义 (1) The application of a systematic, disciplined, quantifiable approach to the development, operation, and mainten…

反汇编分析赋值与自增自减

目录++(--)后置的++(--)真的是先使用,后自增吗?后置++和前置++的差别复杂表达式++i+++i+++i贪心法编译器的贪心规则不是保证一定正确的规则赋值的原理 ++(--)后置的++(--)真的是先使用,后自增吗?概念:前置++是先自增,后使用; 后置++是先使用,后自增. 下面从汇编角度看后置++的…