自动驾驶-经典模型

news/2025/2/13 20:04:38/文章来源:https://www.cnblogs.com/ytwang/p/18714336

图像分类

resNet --基于CNN的网络

目标检测

目标检测中,我们通常使用边界框(bounding box)来描述对象的空间位置真实边界框(ground-truth bounding box)锚框(anchor box    多尺度锚框交并比(IoU)非极大值抑制(non-maximum suppression,NMS)合并属于同一目标的类似的预测边界框为图像生成多个锚框,再为这些锚框一一预测类别和偏移量--非极大值抑制预测边界框feature map	特征图(fmap)上生成锚框(anchors)
one-stage和two-stage		二阶段: 第一阶段提取感兴趣的区域,第二阶段进行分类和定位retinanetRetinaNet的主要创新点在于其focal loss,该损失解决了大多数目标检测数据集中存在的类别不平衡问题RetinaNet采用了经典的Backbone+Neck+Head单阶段网络结构,Backbone负责提取图像的特征,Neck负责增强或融合特征(如通过多尺度处理),而Head则根据任务需求生成最终的输出结果(如类别、边界框或掩膜)其中Backbone采用Resnet,Neck采用FPN, 特征金字塔网络(FPN)架构Head部分由分类子网络(class subnet)和框回归子网络(box subnet)组成一阶段检测算法‌:如YOLO和SSD	torchvision/models/detection/ssd.pyhttps://github.com/pytorch/vision/blob/main/torchvision/models/detection/ssd.py

图像分割

 图像分割(image segmentation)和实例分割(instance segmentation前景背景分割: 1表示前景,0表示背景语义分割  Semantic实例分割也叫同时检测并分割(simultaneous detection and segmentation全景分割:结合语义分割和实例分割,提供像素级的类别和实例标签,实现全面的场景理解-将背景也作为分类,标签图像(即“mask”或“ground truth”图像)通常是一张灰度图Segmentation Mask(分割掩码) 2023-04-06   Meta AI发布了Segment Anything Model(SAM)	 

Transformer

Vit--图像分类 
是基于transformer结构的cv网络  一开始就捕捉全局上下文的能力	torchvision/models/vision_transformer.pyViT模型利用Transformer模型在处理上下文语义信息的优势,将图像转换为一种“变种词向量”然后进行处理ViT结构主要包括Patch Embedding、Position Embedding(位置编码)、Transformer Encoder与MLP Head
Transformer在CV领域通用的backboneNLP领域的词嵌入(Word Embedding),ViT采用了(Patch Embedding)

目标检测

 DETR(Detection Transformer)用于目标检测和全景分割。这是第一个将Transformer成功整合为检测pipeline中心构建块的目标检测框架。从通用任务和可提示分割两个方向由三个主要部分组成:用于特征提取的CNN后端(ResNet)、transformer编码器-解码器和用于最终检测预测的前馈网络(FFN)

自动驾驶

BEV+Transformer方案可以将静态道路信息与动态道路信息统一到了同一个坐标系下,通过实时感知与转换,在行驶中即可实时生成“活地图”
VLAOpenVLA 模型OCC动态-静态-OCC

多模态

  CLIP模型(Contrastive Language-Image Pretraining)

大模型时代

ChatGLM系列、Qwen系列、Llama系列Deepseek

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/883378.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Svelte 最新中文文档翻译(7)—— snippet 与 @render

前言 Svelte,一个非常“有趣”、用起来“很爽”的前端框架。从 Svelte 诞生之初,就备受开发者的喜爱,根据统计,从 2019 年到 2024 年,连续 6 年一直是开发者最感兴趣的前端框架 No.1:Svelte 以其独特的编译时优化机制著称,具有轻量级、高性能、易上手等特性,非常适合构…

基环树 DP:学习笔记

总述 定义 基环树,是一个 \(N\) 个点和 \(N\) 条边的连通图,特征是图中有且仅有一个环。特别的,如果不连通且每个连通块的点数和边数都相等,那么这就是一个基环树森林。 基环树 DP,顾名思义,就是在一个基环树上 DP,或是 DP 的结构类似基环树。相对于正常的树型 DP,一般…

数字孪生如何让GIS场景视效瞬间高大上?带你了解鲸孪生中的GIS系统

GIS与数字孪生的结合非常紧密,而山海鲸可视化作为一个数字孪生平台,也将GIS系统整合在了鲸孪生功能之中。 GIS中包含了大量的数据,例如遥感数据、地形数据、倾斜摄影数据等,能够为数字孪生系统提供非常好的补充。同时,传统的GIS系统整体视觉效果相对较差,与其他模型和数据…

2 分支 多个思路

利用分支,你就可以在同一个代码基础上同时处理多个完全没有关联、相互独立的工作。考虑以下场景。 假设你正在改一个 Bug-A,此时已经产生了大量的代码修改,并且离修复完成还有很长一段时间(起码得明天)。此时,有一个着急但简单的 Bug-B 需要你立即完成,并在一个小时内同…

记录一种DAG计数方法与一个配套技巧

记录一种DAG计数方法与一个配套技巧 定义 \(f_S\) 表示集合 \(S\) 中的点构成的合法 DAG 子图的方案数。假设找到 DAG 中一个入度为 \(0\) 的节点 \(x\),那么很明显 \(f_S=\sum_{x}f_{S\setminus \{x\}}\),这明显要算重因为 \(S\setminus \{x\}\) 中也有入度为 \(0\) 的点。 …

野鸡题手写题解整合

浴谷正在蒸蒸日上,专栏区怕是马上要倒闭了。 CF2026F 题 题。题外话:这场有点水平,E 题让我重拾了最大权闭合子图的记忆。 首先考虑没有这个可持久化(只有 \(2,3,4\) 操作)怎么做。\(0/1\) 背包问题,动态维护当前的 dp 数组 \(f_i\) 表示总体积 \(\sum p\) 不超过 \(i\) …

鸿蒙开发:了解@Builder装饰器

@Builder装饰是鸿蒙UI开发中,非常重要的一个装饰器,在实际的开发中,合理且正确的使用,能够让我们的代码更加的简洁前言本文代码案例基于Api13,温馨提示:内容相对来说比较简单,如果您已掌握,略过即可。如果说一个页面中组件有很多,我们都统一写到build函数中,显而易见…

P1020 [NOIP 1999 提高组] 导弹拦截(dilworth)

这道题真的做的我鬼火冒,尤其是这个第二问要用到dilworth但是我看讲解完全不知道他们在讲什么,我看了好久才理解,一个数组至少可以由几个不增子序列覆盖就等于严格单调递增的最长子序列的长度,如果是至少可以由几个严格递减子序列覆盖就等于最长单调不减子序列的长度,然后…

Linux系统介绍

1. Linux介绍 Linux和windows一样也是一个操作系统,但是与windows不同的是,Linux是一套开放源码的代码程序、并且可以自由传播的类unix操作系统软件。 Linux系统主要被应用于服务端、嵌入式开发和个人PC桌面3大领域,一般的WEB项目都是部署在Linux操作系统上。 Linux是一个基…

Linux驱动---按键

文章简述了Input子系统架构,讲解了输入设备驱动开发流程,探讨了按键消抖方法及按键驱动开发要点,为嵌入式开发提供参考。目录一、Input子系统1.1、简介1.2、Input子系统构成1.3、input_dev结构体二、输入设备驱动开发流程2.1、分配和初始化输入设备2.2、注册设备2.3、事件上…

Android studio:flutter开发环境配置

Make Android apps | Flutter 下载flutter,并配置环境变量 右击 此电脑->属性->高级系统设置->环境变量在 用户变量 新建两个变量 变量名:FLUTTER_STORAGE_BASE_URL 变量值:https://storage.flutter-io.cn 变量名:PUB_HOSTED_URL 变量值:https://pub.flutter-io.c…