DCNv4:对视觉应用的动态和稀疏算子的重新思考

摘要

https://arxiv.org/pdf/2401.06197.pdf
我们介绍了可变形卷积v4(DCNv4),这是一种高效且有效的运算符,专为广泛的视觉应用而设计。DCNv4解决了其前身DCNv3的局限性,通过两个关键改进:1. 去除空间聚合中的softmax归一化,以增强其动态属性和表达力;2. 优化内存访问以最小化冗余操作以提高速度。这些改进导致与DCNv3相比,收敛速度显著加快,处理速度大幅提升,DCNv4的前向速度提高了三倍以上。DCNv4在各种任务中表现出色,包括图像分类、实例和语义分割,尤其是图像生成。当将其集成到诸如U-Net之类的潜在扩散模型中的生成模型中时,DCNv4超过了其基线,突显了其增强生成模型的潜力。在实践应用中,将DCNv3替换为DCNv4在InternImage模型中创建FlashInternImage,可实现高达80%的速度提升和性能改进而无需进一步修改。DCNv4在速度和效率方面的进步,以及其在各种视觉任务中稳健的性能表现,表明其作为未来视觉模型的基础构建块的潜力。

1、简介

在计算机视觉领域,关于卷积网络(ConvNets)和Transformer哪个性能更优越的争论一直在进行。近年来,具有注意力机制的大型视觉模型中的Transformer模型[12、25、44]取得了显著成果,显示出超越ConvNets的潜力。然而,诸如InternImage [38]和ConvNeXt [26]等最新研究工作表明,基于ConvNet的视觉模型在各种下游任务中仍保持稳健的性能、效率和简单性,并具有适当的归纳偏差[15、41]。值得注意的是,在图像生成等领域[29、31],卷积仍然是首选方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/417319.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文阅读】ControlNet、文章作者 github 上的 discussions

文章目录 IntroductionMethodControlNetControlNet for Text-to-Image DiffusionTrainingInference Experiments消融实验定量分析 在作者 github 上的一些讨论消融实验更进一步的探索Precomputed ControlNet 加快模型推理迁移控制能力到其他 SD1.X 模型上其他 Introduction 提…

AWTK 开源串口屏开发(7) - 屏幕保护

现代屏幕其实并不需要屏幕保护,不过屏幕保护程序会衍生一些其它用途。比如: 保护隐私。长时间不操作,通过动画或者其它方式隐藏屏幕内容。数据安全。长时间不操作,需要输入密码才能恢复。美观/广告。长时间不操作,显示…

揭秘!微信高效群发的方法,轻松提升转化率

微信作为一个维护客户关系和营销推广产品与服务的重要平台,对于企业和个人来说都具有非常大的价值。然而,如何高效地给客户群发消息,提高转化率,却是一个让很多人头疼的问题。 下面就给大家介绍几个小技巧,帮助大家实…

tidb Cloud 连接spring boot 项目

一、 免费试用tidbitcloud TiDB Cloud Documentation | PingCAP Docs 1.github账号登录 2.创建集群 3.点击对应集群cludter0 导入数据 导入 本地导入只支持csv文件,其他导入需要AWZ账号使用S3云存储 二、连接spingboot项目 选择java,复制下面的jd…

智汇云舟创始人兼总裁周舟:视频孪生赋能智慧城市多元场景建设

1月18日,由知名科技媒体和产业智库泰伯网主办的WIF2023创新先行者论坛暨企业家会员年会于北京成功举办。共有百余位科技公司创始人、管理者、投资人齐聚,研判产业经济趋势,寻找新形势下企业未来发展的新方向、新机会。智汇云舟创始人兼总裁周…

什么是小红书报备达人,报备流程总结!

随着KOL的崛起,品牌方投放达人是司空见惯的事情。所以,关于品牌投放小红书达人时,一定要知道什么是报备。今天来马文化传媒和大家分享下什么是小红书报备达人,报备流程总结! 一、什么是小红书报备 小红书报备即是&…

美团跌破发行价,市值较巅峰蒸发80%!

大家好,我是程序员小灰。 说起美团的股票,不禁让我回想起一段往事。2019年初,当时我所在的公司摩拜科技被美团收购,因为自己有一些摩拜的期权,被收购后转换成了美团期权。 小灰很快做了行权,拿到了美团的股…

多场景建模:阿里STAR

多场景建模:阿里STAR 阿里提出了Partitioned Normalization、Star Topology FCN、Auxiliary Network应用到多场景建模,在各个场景上面取得不错的效果。 两个场景: 淘宝主页的banner,展示一个商品或者一个店铺或者一个品牌猜你喜欢…

FineBI报表页面大屏小屏自适应显示问题

大屏正常显示 显示正常 小屏BI自适应显示 存在遮挡字体情况 小屏浏览器缩放显示 等比缩放后显示正常 其他建议(部分解决方法) 初步有两种解决方法 两种方法都需要FineBI中网页框可以嵌套发布FineReport制作的报表xx.cpt/xx.frm 方法一:使用f…

【论文阅读 SIGMOD18】Query-based Workload Forecasting for Self-Driving

Query-based Workload Forecasting for Self-Driving Database Management Systems My Summary ABSTRACT Autonomous DBMS的第一步就是能够建模并预测工作负载,以前的预测技术对查询的资源利用率进行建模。然而,当数据库的物理设计和硬件资源发生变化…

Redis持久化和集群架构

目录 Redis持久化 RDB快照(snapshot) RDB优点 RDB缺点 RDB的触发机制 AOF持久化 AOF文件重写 AOF触发机制 混合模式 Redis主从架构 Redis哨兵高可用架构 Redis Cluster架构 槽位定位算法 跳转重定位 Redis集群节点间的通信机制 Redis持久化…

2024最新租号平台系统源码,支持单独租用或合租使用

应用介绍 这是一款租号平台源码,采用常见的租号模式。目前网络上还很少见到此类类型的源码。 平台的主要功能如下: 支持单独租用或采用合租模式,采用易支付通用接口进行支付,添加邀请返利功能,以便站长更好地推广&am…