【前沿热点视觉算法】-视觉识别的统一卷积和自我注意

计算机视觉算法分享。问题或建议,请文章私信或者文章末尾扫码加微信留言。

1 论文题目

  • 视觉识别的统一卷积和自我注意

2 论文摘要

  • 由于大量的局部冗余和复杂的全局依赖性,从图像和视频中学习区别表示是一项具有挑战性的任务。卷积神经网络(CNNs)和视觉变压器(ViTs)在过去的几年中一直是两个占主导地位的框架。虽然cnn可以通过在一个小邻域内的卷积有效地减少局部冗余,但有限的接受域使得很难捕获全局依赖性。另外,ViTs可以通过自我注意有效地捕获长期依赖,而所有令牌之间的盲相似性比较会导致高冗余。为了解决这些问题,我们提出了一种新的统一变压器(UniFrorme),它可以无缝地集成卷积和自我注意的优点。与典型的变压器块不同,我们的统一块中的关系聚合器分别在浅层和深层中具有局部和全局标记亲和力,允许解决冗余和依赖性,从而实现有效的表示学习。最后,我们灵活地将uni前体块叠加成一个新的强大的主干,并将其用于从图像到视频领域,从分类到密集预测的各种视觉任务。在没有任何额外的训练数据的情况下,我们的单位前者在ImageNet-1K分类任务上达到了86.3的前1位精度。通过只有ImageNet-1K的预训练,它就可以简单地在广泛的下游任务中实现最先进的性能。它获得82.9/84.8前1动力学精度-400/600,60.9/71.2前1精度——V1/V2视频分类任务,53.8盒美联社和46.4面具美联社COCO目标检测任务,50.8mIoUADE20K语义分割任务,和77.4APCOCO姿态估计任务。

3 论文创新点

  • 动态位置嵌入(DPE)
  • 多头关系聚合器(MHRA)
  • 前馈网络(FFN)

4 论文架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 不足之处

6 未来展望

  • 提出的一种新的高效视觉识别的统一方法,它可以有效地统一卷积和自关注在一个简洁的变压器格式,以克服冗余和依赖性。
  • 在浅层采用局部MHRA,大大减少计算负担,在深层采用全局MHRA,学习全局令牌关系。

7 论文地址

  • chrome-extension://mhnlakgilnojmhinhkckjpncpbhabphi/pages/pdf/web/viewer.html?file=https%3A%2F%2Farxiv.dosf.top%2Fpdf%2F2201.09450

8 论文代码

  • https://github.com/Sense-X/UniFormer

计算机视觉最新进展-Sora

  • 尽管Sora目前尚未向公众开放,但据悉,它可能首先向OpenAI的付费用户提供,如ChatGPT Plus用户(升级 ChatGPT Plus 的教程)。Sora的推出将极大地简化视频创作流程,并提供前所未有的高效性和便利性。如果您有兴趣了解如何使用Sora,可关注官方网站获取最新信息。
  • 具体Sora介绍和ChatGPT4 升级教程
  • 如有其他疑问可以加以下微信二维码联系
    在这里插入图片描述
  • 更多计算机视觉最新最先进算法请扫描关注以下公众号
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/492776.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用视频号下载提取器提取视频,推荐2种方法使用!

视频号下载提取视频号视频,推荐大家2个方法! 前者简单,后者较为复杂,不过都可以提取视频号视频,大家可根据实际情况来使用。 01 视频号下载工具提取器? 1:通过搜一搜的这款搜索引擎找到自己…

Python总结

python注释 单行注释用 # 多行注释用 或者"""" """" 2.在Python中,双引号("")和单引号()都可以用来表示字符串。它们的使用方式基本相同,但…

Linux内核网络

文章目录 前言网络协议栈图解功能 发送Linux内核网络数据包图解流程 接收Linux内核网络数据包图解流程 最后 前言 你好,我是醉墨居士,因为Linux内核涉及的内容极多,我们初学者如果一上来就开始深挖细节,很有可能会在Linux内核代码…

代码随想录01 移除元素

移除元素 1.暴力解法2.双指针法 1.暴力解法 暴力解法就是嵌套两次for循环,第一层for循环来寻找数组中的值等于val的, 第二层for循环是往前覆盖,将值等于val的删除. 2.双指针法 双指针法,分为快指针和慢指针 快指针的意义是新的数组中含有的值 慢指针的意义是新的数组中值所在的…

激光雷达反光板算法总结

1 高反特征提取 首先,从雷达原始数据,提取到高反点;根据雷达的规格书提供的不同材料的强度,设定合适的阈值;;更优的方法是根据距离设定不同的阈值 2 反光板及反光柱的聚类 根据高反点是否连续进行聚类,同时结合距离及雷达的角度分辨率,计算出针对不同尺寸的反光板或反…

Python算法100例-2.6 分糖果

完整源代码项目地址,关注博主私信源代码后可获取 1.问题描述2.问题分析3.算法设计4.确定程序框架5.完整的程序6.运行结果 1.问题描述 10个小孩围成一圈分糖果,老师分给第1个小孩10块,第2个小孩2块,第3个小孩8块&…

基于Java SSM框架实现家庭食谱管理系统项目【项目源码+论文说明】

基于java的SSM框架实现家庭食谱管理系统演示 摘要 本论文主要论述了如何使用JAVA语言开发一个家庭食谱管理系统 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论…

拼团小程序制作的步骤是什么_轻松引领社交电商新风潮

打造爆款拼团小程序:轻松引领社交电商新风潮 在数字化浪潮席卷全球的今天,小程序以其轻便、快捷、易于传播的特性,成为了连接用户与商家之间最直接的桥梁。而拼团小程序,作为社交电商的佼佼者,更是以其独特的魅力&…

yolov8学习笔记(一)网络结构

一、yolov8.yaml YOLOv8详解 【网络结构代码实操】: YOLOv8详解 【网络结构代码实操】-CSDN博客文章浏览阅读10w次,点赞559次,收藏2.9k次。YOLOv8 算法的核心特性和改动可以归结为如下:提供了一个全新的 SOTA 模型,包…

新手如何在视频号中提取视频,看完这2个步骤你就懂了!

视频号已经成为许多用户分享生活、表达自我、获取信息的重要平台。 对于新手来说,理解并掌握如何在视频号中提取视频内容是至关重要的一步,很多人由于不知道平台的规则,导致视频号中不知怎么保存和提取。 本文将详细解析这一过程&#xff0…

TF-IDF,textRank,LSI_LDA 关键词提取

目录 任务 代码 keywordExtract.py TF_IDF.py LSI_LDA.py 结果 任务 用这三种方法提取关键词,代码目录如下, keywordExtract.py 为运行主程序 corpus.txt 为现有数据文档 其他文件,停用词,方法文件 corpus.txt 可以自己…

【IDEA】java 项目启动偶现Kotlin 版本问题 error:Kotlin:module was

一、问题描述: error:Kotlin:module was compiled with an incompatible version of kotlin the binary version of its metadata is二、问题原因: jar包版本冲突 三、解决方式: 1、Rebuild Project(推荐☆) 重新构…