【Functional Affordances】如何确认可抓取的区域?(前传)

文章目录

  • 1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers
  • 2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision
  • 3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence
    • 核心
    • 模型框架
  • 4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence
    • 怎么提取 并 融合SD和DINO的特征
  • 5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion
    • 回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

1. 【Meta AI】Emerging Properties in Self-Supervised Vision Transformers

在这里插入图片描述

  • 这篇文章通过提出DINO自监督学习方法,展示了Vision Transformer(ViT)在无需标签的情况下学习到的丰富视觉特征,为未来无监督和自监督视觉模型的研究与应用开辟了新路径。

  • 丰富视觉特征,即自监督预训练的ViT模型能够学习到图像的语义分割信息。

  • 为后续工作铺垫。

重塑自监督学习: DINO 网络如何颠覆视觉特征表示的常规方法

在这里插入图片描述

2. 【Meta AI】DINOv2: Learning Robust Visual Features without Supervision

AI Computer Vision Research
DINOv2: A Self-supervised Vision Transformer Model

在这里插入图片描述
实现细节我们不看了,看一下结果,看这种方法可以为我们带来什么下游任务启发。

  • 如上图,每个组件都与不同的颜色通道匹配。尽管姿势、风格甚至物体发生了变化,但相关图像之间的相同部分仍会匹配。
  • 图10。跨图像匹配。我们匹配来自不同领域、姿势甚至共享相似语义信息的对象的图像之间的补丁级特征。这展示了我们的模型跨领域转移和理解不同对象的相似部分之间关系的能力。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

3. 【NeurIPS 2023】Diffusion Hyperfeatures: Searching Through Time and Space for Semantic Correspondence

基于扩散模型的特征提取方法,用于语义对应任务

核心

在这项工作中,我们提出了一个框架,用于将扩散过程中的所有中间特征图整合在一起,这些特征图在规模和时间上各不相同,到一个我们称之为扩散超特征的逐像素描述符中。

模型框架

在这里插入图片描述
我们的方法由两个核心部分组成。
提取(第 3.1 节):我们制定了一个简化且统一的提取过程,可同时考虑合成图像和真实图像,这意味着我们能够对两种图像类型的特征使用相同的聚合网络。
聚合(第 3.2 节):我们提出了一个可解释的聚合网络,它学习跨特征的混合权重,突出显示提供底层模型和任务所独有的最有用特征的层和时间步长。


3.1 Diffusion Process Extraction

扩散模型提供了粗略和精细的特征,这些特征在层和时间步的不同组合中捕获不同的图像特征(即语义或纹理信息)。因此,我们发现从所有层和时间步中提取特征很重要,以便充分调整我们的最终描述符映射来表示给定任务所需的适当粒度级别

在这里插入图片描述

我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

在这里插入图片描述
在上图中,我们可以看到,我们的反演特征能够可靠地捕获两只猫的全身及其第 4 层中的常见语义子部分(头、躯干、腿)以及第 10 层中的边缘,即使在输入的时间步长模型的噪声相对较大。

相反,使用生成过程来分析真实图像(如之前的工作中所做的那样)会导致超参数调整和权衡。例如,在接近 t = T 的时间步长处,分布内输入接近噪声,特征开始偏离真实图像中存在的信息,甚至可能产生无关细节的幻觉,如图 3 所示。


3.2 Diffusion Hyperfeatures Aggregation

在这里插入图片描述

在这里插入图片描述

示例合成图像及其文本提示、用户注释的真实对应关系以及来自 DINO、SD-Layer-4 和我们的方法的预测对应关系。请注意,我们转移了根据真实图像的反演特征调整的聚合网络,并将其应用于这些合成图像的生成特征,与 SPair-71k 类别相比,这些合成图像完全在域外。

4. 【NeurIPS 2023】A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot Semantic Correspondence

将SD特征和DINOv2特征用一种简单的方式融合在一起了

  • 我们利用稳定扩散(SD)特征进行语义和密集对应 (semantic and dense correspondence),并发现通过简单的后处理,SD 特征与 SOTA 的表示质量相媲美。
  • 我们展示了文本到图像生成模型(SD)的内部表示在语义和密集对应方面的潜力。

  • 我们的分析表明,与现有的表示学习特征(例如最近发布的 Dinov2)相比,SD 特征具有非常不同的属性:虽然 Dinov2 提供了稀疏但准确的匹配,但 SD 特征提供高质量的空间信息,但有时不准确的语义匹配。
  • 我们分析了SD的特征,它产生空间感知但不准确的对应,以及标准表示学习特征,即DINOv2,它产生准确但稀疏的对应,并表明它们是相互补充的。

  • 我们设计了一种简单的策略来对齐和集成SD 和DINOv2 特征,并证明这些具有零样本评估的特征(仅最近邻,无需专门训练)可以在语义和密集对应方面优于许多SOTA 方法。

在这里插入图片描述
在右侧,我们通过将狗、马、牛甚至摩托车与源图像中的猫进行匹配来展示我们方法的稳健性。

怎么提取 并 融合SD和DINO的特征

Stable Diffusion 的架构由三部分组成:编码器 E、解码器 D(促进像素和潜在空间之间的转换),以及在潜在空间中运行的去噪 U-Net U。
我们首先通过编码器 E 将输入图像 x0 投影到潜在空间中,以产生潜在代码 z0。接下来,我们根据预定义的时间步长 t 将高斯噪声 ε 添加到潜在代码中。
然后,以时间步 t 的潜在代码 zt 和文本嵌入 C 作为输入,我们从去噪 U-Net 中提取特征 F_SD。整个过程可以正式表示如下:
在这里插入图片描述
之前的工作报道了中间 U-Net 层对于图像到图像翻译任务具有更多语义信息,但尚不清楚这些特征是否适合语义对应。


Dinov2 和SD的互补特性为提高语义对应任务的性能提供了有希望的潜力。

  • DINO特征可以捕获高级语义信息,擅长获得稀疏但准确的匹配。
  • SD特征侧重于低级空间信息并确保对应关系的空间相干性,特别是在缺乏强纹理信号的情况下。

一个自然的问题出现了:怎么融合两个特征?


提出了一种简单而有效的融合策略来利用 SD 和 DINO 特征。核心思想是 独立归一化这两个特征来对齐它们的尺度和分布,然后将它们连接在一起:
在这里插入图片描述

5. 【NeurIPS 2023】Emergent Correspondence from Image Diffusion

从扩散网络中提取隐式知识作为图像特征,利用这些特征进行真实图像之间的对应

给定图像中的红色源点(最左侧),我们希望开发一个模型,可以自动找到右侧图像中的对应点。在没有任何微调或对应监督的情况下,我们提出的 **扩散特征(DIFT)**可以跨实例、类别甚至领域建立语义对应,例如,从鸭子到企鹅,从照片到油画。
在这里插入图片描述

回顾什么是扩散模型,如何使用预先训练的扩散模型在真实图像上提取密集特征。

作者对扩散模型做了一个短小精悍的介绍

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/570708.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习——神经网络简单了解

一、神经网络基本概念 神经网络可以分为生物神经网络和人工神经网络 (1)生物神经网络,指的是生物脑内的神经元、突触等构成的神经网络,可以使生物体产生意识,并协助生物体思考、行动和管理各机体活动。 (2)人工神经网络,是目前热门的深度学习的研究…

rust中常用cfg属性和cfg!宏的使用说明,实现不同系统的条件编译

cfg有两种使用方式,一种是属性: #[cfg()],一种是宏:cfg! ,这两个都是非常常用的功能。 #[cfg()]是 Rust 中的一个属性 用于根据配置条件来选择性地包含或排除代码。cfg 是 "configuration" 的缩写&#xf…

jupyter lab使用虚拟环境

python -m ipykernel install --name 虚拟环境名 --display-name 虚拟环境名然后再启动jupyter lab就行了

项目设计方案:市交通视频监控平台项目设计方案(二)

目录 1 前言 1.1 目的 1.2 适用范围 1.3 术语表 2 现状分析 2.1 业务现状 2.2 组织机构现状 2.3 存在的问题 2.4 项目成果预期 3 系统建设原则 4 项目需求 4.1 项目需求 4.1.1 业务需求主要分为三部分: 4.1.2 技术需求主要分为四部分: 4.…

SpringBoot可以同时处理多少请求

SpringBoot默认的内嵌容器是Tomcat,即看Tomcat可以处理多少请求 默认配置 server:tomcat:threads:min-spare: 10 # 最小工作线程数max: 200 # 最大线程数max-connections: 8192 # 接受和处理的最大连接数,超过8192的请求就会被放入到等待队列中ac…

52个AIGC视频生成算法模型介绍

基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。 AIGC视频算法发展现状 从2023年开始,AIGC视频的新…

安全漏洞周报(2024.03.18-2024.03.25)

漏洞速览 ■ Atlassian Confluence 路径遍历漏洞(CVE-2024-21677) ■用友U8cloud SQL注入漏洞 漏洞详情 1.Atlassian Confluence 路径遍历漏洞(CVE-2024-21677) 影响组件: Atlassian Confluence Data Center是面向大型企业和组织的高可用性、可扩展性和高性能版本…

IDEA编辑国际化.properties文件没有Resource Bundle怎么办?

问题描述 最近在做SpringBoot国际化,IDEA添加了messages.properties、messages_en_US.properties、messages_zh_CN.properties国际化文件后,在编辑页面底部没有Resource Bundle,这使得我在写keyvalue的时候在每个properties文件都要拷贝一次…

微信小程序使用Vant组件库流程

目前 Vant 官方提供了 Vue 2 版本、Vue 3 版本和微信小程序版本,并由社区团队维护 React 版本和支付宝小程序版本。这样开发原生微信小程序的会方便很多。 官方网址:Vant Weapp - 轻量、可靠的小程序 UI 组件库 步骤一 通过 npm 安装 npm i vant/weap…

SpringCloud-Eureker配置中心搭建

一、基于本地配置文件的 Eureker配置中心搭建 1.、创建一个springBoot项目 <properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><java.version>1.8</java.version><component.version>0.0.1-SNAPSHOT</…

Qt 图形视图 /图形视图框架坐标系统的设计理念和使用方法

文章目录 概述Qt 坐标系统图形视图的渲染过程Item图形项坐标系Scene场景坐标系View视图坐标系map坐标映射场景坐标转项坐标视图坐标转图形项坐标图形项之间的坐标转换 其他 概述 The Graphics View Coordinate System 图形视图坐标系统是Qt图形视图框架的重要组成部分&#xf…

模板设计模式经典案例

模板设计模式讲究的是将不变的设置为基类&#xff0c;将变的设置为虚函数来让子类实现。下面就以这样的写下模板设计模式的例子。 例子场景 一个工程步骤分为step1,step2&#xff0c;其中step1由总工程指定&#xff0c;step2由子工程指定&#xff0c;最后由一个函数串起来&am…