2024新技术:远距离的小目标也可以准确检测

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

562b91caed41092c1b81f6d3b3e86bb7.gif

899468562b4e51101cfc64dfbc29bd30.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

早期目标检测(OD,object detection)是许多动态系统安全的关键任务。目前的OD算法对于远距离的小物体的成功率有限。

198bef116047f8ef7d646d33c10ce496.gif

PART/1

     概述    

目前的OD算法对于长距离的小物体的成功率有限。为了提高这项任务的准确性和效率,我们提出了一套新的算法,将图像划分为块,选择具有不同尺度对象的块,详细说明小对象的细节,并尽早检测到它。我们的方法建立在transformer的网络上,并集成了扩散模型以提高检测精度。如在BDD100K,我们的算法将小目标的mAP从1.03提高到8.93,并将计算中的数据量减少了77%以上。

PART/2

     背景    

物体检测(OD)在许多现实场景的应用中发挥着至关重要的作用,如自动驾驶和机器人。尽管针对这项任务的各种算法激增,但现有方法在早期目标检测方面仍然面临重大挑战,这是实现快速和主动决策的关键方面。在这样的场景中,由于距离长,捕获图像中的对象的大小通常会显著减小。

a850fa9c2576ba660324b872f45328c6.png

如上图所示,当图像仅包含有限数量的对象,并且由于数据量不足,目标检测的性能显著不理想。为了应对这一挑战,我们可以利用超分辨率(SR)算法来重建更高分辨率的图像,从而增加可用于后续目标检测模型的数据。SR也是计算机视觉中的一个经典问题,拥有大量为该任务量身定制的解决方案。

最近,与生成对抗性网络(GAN)相比,扩散模型,如DDPM,在图像生成方面表现出了显著的能力,并表现出了更大的稳定性。此外,专注于条件扩散模型(CDM)应用于SR的研究取得了显著进展。通过利用扩散模型生成高分辨率图像,我们可以显著提高目标检测性能。然而,扩散模型具有巨大的计算成本,这对自动驾驶等现实的应用构成了挑战。从上图中的图像示例来看,图像的整体细化会对背景像素造成相当大的计算负担,导致资源的过度浪费,对OD没有任何有意义的贡献。

PART/3

     新框架详细分解    

如下图所示,DPR包括三个关键模块:Patch-Selector, Patch-Refiner, Patch-Organizer。Patch-Selector模块负责提取补丁特征并执行分类。接下来,Patch-Refiner模块详细阐述了正补丁,利用CDM将其重建到更高的分辨率,从而提高了目标检测精度。最后,为了完全展示我们提出的方法的效率和准确性,我们使用廉价的插值技术来放大负补丁,并将所有补丁组织成完整的图像,以便于与原始图像进行直接比较。接下来我们对所有模块进行了详细讨论,并概述了算法1中提出的DPR的具体训练过程。此外,算法2详细说明了采样和测试过程。

824ba9e2759aa9efa3abd4eb71020cf4.png

ce7352d5f40d551601070ccb207677dd.png

81d06af9eb2c6d252a136ad3b1fadf0c.png

Patch-Selector模块的设计如下图:(a)利用分层结构编码器,输入图像被嵌入到三个不同尺度的特征中。随后,对这些特征中的补丁进行分类和聚合,以形成最终输出。(b)每个变换器层(TL)包括一个特征合并块和多个基于窗口的自关注块。

62be9126cc55f07d4b3d7a3767388387.png

PART/4

     实验及可视化    

为了权衡计算和性能,在下表中对将图像从64×64放大到512×512时的不同阈值进行了补丁分类实验。第二排的mAP为4.33,是最佳选择,计算量减少了63%。

6eaadc8c1a5bb852d638b2fb97c50d1b.png

对于具有相同阈值的从128×128到1024×1024的FBDD上采样,我们的PS模块仅输出22.8%的CDM生成和OD补丁,并且与CDM相比,PS的FLOP可以忽略不计,这意味着与全图像生成相比,我们节省了77.2%的计算,如下表所示:

deec0bf0b2124d383331cc7a03bf5355.png

1d900735f3c0cb46a78b2f6d9d046dea.png

上图显示了集成补丁后BI和DPR的可视化比较。虽然DPR生成的总体图像看起来与BI相似,但包含对象的关键补丁显示出更精细的细节,这表明CDM只需要处理少量数据,从而实现更高效的计算。

51173165843b58fb90e22605468d77d2.gif

END

bc5a754565bd313eca044a63beac7b2a.gif

cd1bab328b36b39e33257040f0fda7a0.gif

转载请联系本公众号获得授权

5bd3d1e97751fece436cdfd5b26f8382.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

c6c9a37fdf462d4ced79ff3313f75ff6.png

 往期推荐 

🔗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/444616.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFmpeg和Monibuka拉取rtsp(大华摄像头)视频流时未进行URLCode编码导致提示404等报错

场景 Monibucav4(开源流媒体服务器)在Windows上搭建rtmp服务器并实现拉取rtsp视频流以及转换flv播放: Monibucav4(开源流媒体服务器)在Windows上搭建rtmp服务器并实现拉取rtsp视频流以及转换flv播放_monibuca 搭建流媒体服务-CSDN博客 Nginx搭建RTMP服务器FFmpeg…

【笔试常见编程题03】统计回文、连续最大和、不要二、把字符串转换成整数

1. 统计回文 “回文串”是一个正读和反读都一样的字符串,比如“level”或者“noon”等等就是回文串。花花非常喜欢这种拥有对称美的回文串,生日的时候她得到两个礼物分别是字符串A和字符串B。现在她非常好奇有没有办法将字符串B插入字符串A使产生的字符串…

SpringBoot 使用定时任务(SpringTask)

Spring3.0以后自带的task&#xff0c;可以将它看成一个轻量级的Quartz&#xff0c;而且使用起来比Quartz简单许多。 使用步骤&#xff1a; 1.导入坐标 在spring-boot-starter-web坐标中&#xff0c;就包含了SpringTask&#xff0c;所以一般的Web项目都包含了。 <depende…

【大厂AI课学习笔记】1.3 人工智能产业发展(4)——泛在的人工智能

人工智能走向泛在。 泛在&#xff0c;就是广泛存在。&#xff08;下图来自腾讯AI课。&#xff09; 没办法&#xff0c;被百度抛弃了&#xff0c;想学习&#xff0c;课程打不开&#xff0c;只好投想腾讯的怀抱。 之前考过腾讯云的认证&#xff0c;课程做的还是条理很清晰。 主…

重写Sylar基于协程的服务器(3、协程模块的设计)

重写Sylar基于协程的服务器&#xff08;3、协程模块的设计&#xff09; 重写Sylar基于协程的服务器系列&#xff1a; 重写Sylar基于协程的服务器&#xff08;0、搭建开发环境以及项目框架 || 下载编译简化版Sylar&#xff09; 重写Sylar基于协程的服务器&#xff08;1、日志模…

如何在FBX剔除Lit.shader依赖

1&#xff09;如何在FBX剔除Lit.shader依赖 2&#xff09;Unity出AAB包&#xff08;PlayAssetDelivery&#xff09;模式下加载资源过慢问题 3&#xff09;如何在URP中正确打出Shader变体 4&#xff09;XLua打包Lua文件粒度问题 这是第371篇UWA技术知识分享的推送&#xff0c;精…

央视见证|“看见中国汽车”走进首家汽车供应链企业东软睿驰

由工业和信息化部支持指导&#xff0c;中国汽车工业协会和央视网联合出品的2023《看见中国汽车》专题东软睿驰篇正式上线&#xff0c;记录品牌向上专项行动走进首家汽车供应链企业&#xff0c;展示东软睿驰围绕“成为OEM 软件定义汽车时代最可信赖的合作伙伴”核心战略的创新发…

【warning 514】pc-lint plus warning 514 的解决

1、报错详情 .....\Libraries\STM32H7xx_HAL_Driver\Src\stm32h7xx_hal_tim_ex.c 1865 warning 514: boolean argument to bitwise operator | 2、报错原因 查询pc-lint手册可知该问题为&#xff1a;在布尔操作中使用了位运算 代码如下&#xff0c;在断言检测中误输入了位运算…

C++/数据结构:二叉搜索树的实现与应用

目录 一、二叉搜索树简介 二、二叉搜索树的结构与实现 2.1二叉树的查找与插入 2.2二叉树的删除 2.3二叉搜索树的实现 2.3.1非递归实现 2.3.2递归实现 三、二叉搜索树的k模型和kv模型 一、二叉搜索树简介 二叉搜索树又称二叉排序树&#xff0c;它或者是一棵空树&#xff0…

从零开始教你手动搭建幻兽帕鲁私服( CentOS 版)

哈喽大家好&#xff0c;我是咸鱼。 想必上网冲浪的小伙伴最近都被《幻兽帕鲁》这款游戏刷屏了。 (文中图片均来自网络&#xff0c;侵删) 幻兽帕鲁是 Pocketpair 打造的一款开放世界的生存建造游戏。在游戏中&#xff0c;玩家捕捉各种各样的“帕鲁”。 “帕鲁” 在玩家支配下…

飞桨paddlespeech语音唤醒推理C INT8 定点实现

前面的文章&#xff08;飞桨paddlespeech语音唤醒推理C定点实现&#xff09;讲了INT16的定点实现。因为目前商用的语音唤醒方案推理几乎都是INT8的定点实现&#xff0c;于是我又做了INT8的定点实现。 实现前做了一番调研。量化主要包括权重值量化和激活值量化。权重值由于较小且…

[网络安全] IIS----WEB服务器

一、 WEB服务器 WEB服务器 也叫网页服务器和 HTTP服务器使用协议: HTTP(端口:80) 或 HTTPS(端口443)浏览器:HTTP客户端网站: 一个或多个网页组成的集合 二、HTTP和HTTPS协议: HTTP : 是 HyperText Transfer Protocol&#xff08;超文本传输协议&#xff09;的简写&#xff0c;…