(2024|WACV,fMRI到图像,对比学习,数据增强,用多阶段编解码器解决数据对稀缺)DREAM:逆转人类视觉系统的视觉解码

DREAM: Visual Decoding from REversing HumAn Visual SysteM

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

1. 引言

3. 人类视觉系统基础

4. DREAM

4.1. R-VAC(语义解析)

4.2. R-PKM(深度和颜色解析)

4.3. 引导图像重建(GIR)

5. 实验 

7. 结论

附录

B. 详细的人类视觉系统


0. 摘要

在这项工作中,我们提出了 DREAM,一种基于人类视觉系统基本知识的功能性磁共振成像(Functional Magnetic Resonance Imaging,fMRI)到图像方法,用于从脑活动中重建所观看的图像。我们设计了反向通路(reverse pathways),模拟了人类感知视觉世界的层次化和并行性质。这些定制的通路专门用于从 fMRI 数据中解读语义、颜色和深度线索,反映了从视觉刺激到 fMRI 记录的正向通路。为此,两个组件模拟了人类视觉系统内的逆过程:反向视觉联合皮质(Reverse Visual Association Cortex,R-VAC),反转了这一脑区的通路,从 fMRI 数据中提取语义;反向并行 PKM(the Reverse Parallel PKM,R-PKM)组件同时从 fMRI 信号中预测颜色和深度。实验证明,我们的方法在外观、结构和语义的一致性方面优于当前的最先进模型。

项目页面:https://weihaox.github.io/DREAM/

1. 引言

探索神经编码揭示了大脑功能的复杂性。在过去几年中,我们见证了视觉解码方面的巨大进步 [18],该进步旨在解码功能性磁共振成像(fMRI)以重建在 fMRI 记录期间由人类主体观看的测试图像。视觉解码可能会对我们的社会产生重大影响,从我们如何与机器交互到帮助瘫痪患者 [43]。然而,现有方法仍然存在概念缺失和图像质量有限的问题。最近的研究转向深度生成模型进行视觉解码,这是因为它们出色的生成能力,尤其是文本到图像的扩散模型 [35,49]。这些方法严重依赖于将脑信号与视觉-语言模型 [33] 对齐。CLIP 的这种策略利用有助于缓解注释数据的稀缺性和底层脑信息的复杂性。

然而,CLIP 的固有性质,即无法保留场景的结构和位置信息,限制了视觉解码的效果。因此,当前方法已经努力将结构和位置细节纳入视觉解码,要么通过深度图 [10,42],要么通过利用初始猜测图像的解码表示 [31,37]。然而,这些方法主要集中于在合适的输入中融合预训练的生成模型,以进行视觉解码,缺乏人类视觉系统的见解。

我们从统治人类视觉系统(Human Visual System,HVS)的基本原理 [3] 开始我们的研究,并剖析对有效视觉解码至关重要的基本线索。我们的方法从 HVS(人类如何感知视觉刺激。图 1 中的正向路径)中汲取灵感,以解决从 fMRI 到视觉域的转换中可能发生的信息丢失问题(图 1 中的逆向路径)。我们通过解读 fMRI 记录中的关键线索来做到这一点,从而为外观、结构和语义方面的一致性做出贡献。作为线索,我们调查了:准确的场景外观的颜色 [29]、场景结构的深度 [34],以及流行的高层次理解的语义 [33]。我们的研究表明,当前的视觉解码方法经常忽视和未注意到颜色,而实际上颜色发挥着不可或缺的作用。图 2 突出显示了最近一项工作中的颜色不一致性 [31]。生成的图像,在语义上准确的同时,从原始视觉刺激中偏离了结构和颜色。这种现象是由于缺乏适当的颜色指导而引起的。

3. 人类视觉系统基础

人类视觉系统(HVS)赋予我们视觉感知的能力。视觉信息同时从视网膜的各种细胞类型传送到大脑,每个细胞捕捉到数据的不同方面,通过视神经传送到大脑。

如图 3 所示,从视网膜到大脑的连接可以分为细小细胞通路(parvocellular pathway)和巨细胞通路(magnocellular pathway)(一个额外的神经元集合,称为锥状细胞层,被发现在每个巨细胞层和细小细胞层的腹侧)。

  • 细小细胞通路起源于视网膜的小型(midget)细胞,负责传递颜色信息,
  • 巨细胞通路始于视网膜的大型(parasol)细胞,并专门用于检测深度和运动。

视觉信息首先被引导到丘脑(thalamus)的感觉中继站,称为外侧膝状核(LGN),然后被引导到视觉皮层(visual cortex,V1)进行对视觉刺激的初步处理。

视觉联合皮质(visual association cortex,VAC)从 V1 接收处理后的信息,并进行复杂的高级语义内容处理。

视觉刺激被分解并作为颜色、深度和语义经由层级化和并行的方式向前传递,这指导了我们选择对 HVS 进行解码。有关人类感知的详细说明以及从 fMRI 记录中提取所需线索的可行性分析,请参阅补充材料。

4. DREAM

视觉解码的任务旨在从视觉刺激引发的脑活动信号中恢复被观察的图像 I ∈ R^(H×W×3)。通常使用功能性磁共振成像(fMRI)作为脑活动的代理,通常编码为一组体素(voxels) fMRI ∈ R^(1×N)。从形式上讲,该任务优化 f(·) 以使 f(fMRI) = ˆI,其中 ˆI 最佳逼近 I。

为了解决这个任务,我们提出了一种名为 DREAM 的方法,该方法基于人类感知的基本原理。根据第 3 节,我们的方法依赖于对反向路径的明确设计,以解读 fMRI 数据中交织的语义、颜色和深度。这些反向路径反映了从视觉刺激到脑活动的正向过程。考虑到 fMRI 在正向过程中捕获了大脑区域的变化,从这样的记录中推导出视觉刺激的所需线索是可行的。

概述。图 3 展示了 DREAM 的概述。它由两个连续阶段构成,即路径反转和引导图像重建。这些阶段将从 fMRI 到图像的反向映射分解为两个子过程:fMRI → {ˆS, ˆC, ˆD} 和 {ˆS, ˆC, ˆD} → ˆI。在第一阶段,两个反向路径从 fMRI 中解读语义、颜色和深度的线索,具有并行组件:反向视觉联合皮质(Reverse Visual Association Cortex,R-VAC,第 4.1 节)反转 VAC 区域的操作以从 fMRI 中提取语义细节,编码为 CLIP 嵌入 [33],并且反向平行(Reverse Parallel)细小(Parvo-)细胞、锥状(Konio-)细胞和巨(Magno-)细胞(R-PKM,第 4.2 节)被设计为从 fMRI 信号中同时预测颜色和深度。鉴于 fMRI 数据的有损特性和图像到 fMRI 的非双射变换,我们将解码过程视为一项生成任务,同时使用提取的 ˆS、ˆC、ˆD 线索作为图像重建的条件。因此,在第二阶段引导图像重建(GIR,第 4.3 节)中,我们遵循最近的视觉解码实践 [41,42],并采用了冻结的 SD 和 T2I-Adapter [29] 通过受益于额外的 ˆS、ˆC、ˆD 指导来生成图像。

4.1. R-VAC(语义解析)

视觉联合皮质(VAC),如第 3 节所述,负责解释视觉刺激的高级语义。我们设计了 R-VAC 来通过类似学习从 fMRI 到语义的映射来反转这种过程 fMRI → ˆS。这通过训练一个编码器 E_fmri 来实现,其目标是将 fMRI 嵌入与共享的 CLIP 空间 [33] 对齐。尽管 CLIP 最初是使用图像文本对进行训练的,但先前的工作 [26,37] 证明了对齐新型态的能力。为了解决 fMRI 数据的稀缺性,我们还仔细选择了一种特定的数据增强策略[21]。

对比学习。在实践中,我们使用 {fMRI、图像、标题} 三元组来训练 fMRI 编码器 E_fMRI,以将 fMRI 嵌入拉近到 CLIP 的丰富共享语义空间中。考虑到 CLIP 的文本编码器(E_txt)和图像编码器(E_img)都是冻结的,我们最小化了 fMRI-图像和 fMRI-文本的嵌入距离,从而强制将 fMRI 嵌入与 CLIP 对齐。训练过程如图 4 所示。形式上,假设 fMRI、文本和图像的嵌入分别为 p、c、v,则初始对比损失写为

其中 τ 是温度超参数。每个项的求和是针对一个正样本和 K 个负样本。每个项代表一个基于 softmax 的 (K+1) 类分类器的对数损失,旨在将 pi 分类为 ci(或 vi)。为简洁起见,省略了 batch 大小为 n 的样本求和。图像-文本-fMRI 联合表示旨在用于检索。fMRI-图像或 fMRI-文本组件被用于特定任务。

数据增强。一个重要的问题是要考虑到与用于训练 CLIP 的样本数量(10^8)相比,fMRI 样本数量较少(约 10^4),这可能会损害对比学习。为了解决这个问题,我们利用基于 MixCo 的数据增强损失,它通过两个 fMRI 数据 r_i 和 r_k 的凸组合,生成混合的 fMRI 数据 r_(mix_(i,k)) :

其中 k 表示同一 batch  中任意数据的任意索引,它的编码写作

为了简洁起见,数据增强损失排除了图像组件,其表达式为

最后,总损失是 L_p 和 L_MixCo 的加权组合,权重为超参数 α:

4.2. R-PKM(深度和颜色解析)

虽然 R-VAC 提供了语义知识,但后者固有地受限于 CLIP 空间容量,无法编码空间颜色和几何。为了解决这个问题,受人类视觉系统启发,我们设计了 RPKM 组件来反转细小细胞、锥状细胞和巨细胞(PKM)的路径,随后从 fMRI 数据中预测颜色和深度,表示为 fMRI →{ˆC, ˆD}。虽然颜色和深度可以以各种方式表示(例如,直方图、图形),但我们将它们表示为空间颜色调色板和深度图,以便于重建指导,如第 4.3 节所讨论的那样。可视化内容如图 3 所示。

在实践中,我们将问题制定为 RGBD 估计。然后,通过首先将其缩小 ×64,然后将其放大回到原始大小,来从 RGB 预测中导出颜色调色板。虽然有现成的方法可用于 fMRI → RGBD 映射,但由于 fMRI 数据稀缺,它们的性能有限。相反,我们引入了一个多阶段编码器-解码器训练,它同时受益于稀缺的 (fMRI、RGBD) 对和丰富的没有 fMRI 的 RGBD 数据。图 5 显示了 R-PKM 的训练过程。

阶段 1。鉴于有限的对 {(r, d)}={fMRI, RGBD},我们首先训练一个编码器,将 RGBD 映射到其对应的 fMRI 数据。为了弥补 fMRI 数据集中深度缺失,我们使用 MiDaS 估计的深度图替代地面真实深度。编码器使用输入 r 和其预测对应物 ˆr 之间的均方误差和余弦相似度的凸组合进行训练:

其中 β 根据经验确定为一个超参数。

阶段 2。类似于阶段 1,我们现在以监督方式训练解码器,使用对 {(r, d)} 的对:

其中 ˆd = D(r),总变分正则化项 J(ˆd) 鼓励重建的 ˆd 具有空间平滑性。

阶段 3。为了解决 fMRI 数据的稀缺性并改善模型对未见类别的泛化能力,我们采用自监督策略来微调解码器,同时保持编码器冻结。这有助于使用任何自然图像(例如,来自 ImageNet 或 LAION)以及它们的估计深度图,而无需配对的 fMRI 和图像数据。因此,我们仅使用 RGBD 数据进行训练,通过编码器-解码器转换确保循环一致性,即ˆd = D(E(d)),其损失为 Eq. (6)。鉴于此阶段涉及从未收集过 fMRI 数据的图像,模型大大提高了泛化能力。

4.3. 引导图像重建(GIR)

配备了 R-VAC(第 4.1 节)和 R-PKM(第 4.2 节),我们的方法可以解析语义 ˆS、颜色 ˆC 和深度 ˆD,形式为 CLIP 嵌入、空间颜色调色板和深度图。最后,引导图像重建 {ˆS, ˆC, ˆD} → ˆI 完成了视觉感知 I → fMRI 正向过程的反向映射。

我们利用 Stable Diffusion(SD)来从预测的 CLIP 嵌入 ˆS 和预测的颜色调色板 ˆC、深度图 ˆD 的附加指导中重建最终图像。这样的指导是使用 T2Iadapter 内的颜色适配器 R_c 和深度适配器 R_d 产生的。这个过程的表述如下:

其中 z 是随机噪声,ωc 和 ωd 是可调权重,用于控制适配器的相对重要性。

5. 实验 

7. 结论

本文介绍了 DREAM,一种建立在人类感知原理基础上的视觉解码方法。我们设计了与从视觉刺激到 fMRI 记录的正向路径相对应的反向通路。这些通路专门用于从 fMRI 数据中解读语义、颜色和深度线索,然后将这些预测的线索用作重建视觉刺激的指导。实验证明,我们的方法在外观、结构和语义的一致性方面优于当前的最先进模型。

附录

B. 详细的人类视觉系统

我们的方法旨在从 fMRI 数据中解码语义、颜色和深度,因此固有地受限于 fMRI 数据捕捉到的特定脑活动能力。重要的是要确定 fMRI 是否捕捉到了负责处理视觉信息的相应人类脑区域的变化。在这里,我们对由 fMRI 数据记录的人类视觉系统中的特定脑区进行了全面的检查。 

视觉信息的流动 [3] 在神经科学中呈现如下。图 1 提供了视觉感知功能解剖的全面描述。来自视网膜的感觉输入经过丘脑(thalamus)中的 LGN,并达到视觉皮层(Visual Cortex)。视网膜(Retina)是眼睛内部的一个层,由感光细胞和胶质细胞组成。这些细胞捕捉进入的光子并将它们转换成电学和化学信号,然后传送到大脑,产生视觉感知。不同类型的信息通过细小细胞通路和巨细胞通路进行处理,其详细信息在主论文中有详细阐述。然后,LGN 将传递的视觉信息引导到视觉皮层,在那里它分为两个流向视觉联合皮层(Visual Association Cortex,VAC)的通道,用于对来自视觉图像的高级语义内容进行复杂处理。

视觉皮层,也称为视觉区域 1(V1),是皮层内视觉感知的初始入口点。视觉信息首先流向这里,然后传递到其他区域。VAC 包括环绕视觉皮层的多个区域,包括 V2、V3、V4 和 V5(也称为中颞区域,middle temporal area,MT)。V1 将信息传递到两个主要流向:腹侧流(ventral stream)和背侧流(dorsal stream)。

  • 腹侧流(黑色箭头)从 V1 开始,经过 V2 和 V4,到达颞下皮质(IT 皮质)。腹侧流负责处理视觉刺激的“含义”,例如对象识别和辨认。
  • 背侧流(蓝色箭头)从 V1 开始,经过视觉区域 V2,然后到达背内侧区域(DM/V6)和颞内侧区域(MT/V5),再到达后顶叶皮层。背侧流参与分析与 “位置” 相关的信息,特别是对象的空间属性。

与语义、颜色和深度处理相关的脑区域中发生的变化确实存在于 fMRI 数据中。这一观察强调了从提供的 fMRI 记录中提取预期信息的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/641183.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3+Echarts+Nodejs实现动态数据可视化

最近在做毕设的后台管理系统,刚好需要做数据动态可视化的功能,就来记录一下具体的实现方式吧! 在开始之前就不阐述用vue创建项目的具体步骤了,主要详细讲解一下vue3、echarts和nodejs三者之间是如何实现数据的动态显示的&#xf…

在 VSCode 中运行 C#

文章目录 1.为何选择VSCode而不是VS2.操作步骤2.1 安装.NET2.2 安装扩展插件2.2.1 C#2.2.2 Code Runner 3.新建工程HelloCsharp 1.为何选择VSCode而不是VS VS实在是太“重”了,如果只是写一些简单控制台程序进行调试,则完全没必要 2.操作步骤 2.1 安装…

数据赋能(65)——要求:岗位与能力要求关系

“要求:岗位与能力要求关系”是作为标准的参考内容编写的。 岗位与能力要求关系存在多种。岗位与能力要求主要关系如下图所示 所有岗位所需要一定的基础能力或者称为胜任能力,主要基础能力包括:数据思维能力、协调与沟通能、持续学习能力、创…

Redis入门到通关之Redis数据结构-Hash篇

文章目录 ☃️ 概述☃️底层实现☃️源码☃️其他 欢迎来到 请回答1024 的博客 🍓🍓🍓欢迎来到 请回答1024的博客 关于博主: 我是 请回答1024,一个追求数学与计算的边界、时间与空间的平衡,0与1的延伸的后…

【Redis】set 数据类型

文章目录 常用命令sadd & smemberssismember & scardspopsmove & srem 多个集合间的交互命令交集 & sinter & sinterstore并集 & sunion & sunionstore差集 & sdiff & sdiffstore 内部编码 集合类型也是保存多个字符串类型的元素的&#x…

文旅元宇宙平台|景区导览|数字人导游|智能导览系统

随着科技的飞速发展,人工智能、虚拟数字人以及元宇宙等前沿技术逐渐走进人们的日常生活,为各行各业带来了前所未有的变革。在这个数字化浪潮中,道可云文旅元宇宙平台应运而生,以其独特的技术应用和创新的商业模式,引领…

前沿论文 | LLM推理性能优化最佳实践

原文:安全验证 - 知乎​ 来源 题目:LLM Inference Performance Engineering: Best Practices 地址:https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices 在这篇博文中,MosaicML工程团队分析了…

node.js-包

包的概念 包:将模块,代码,其他资料聚合成的一个文件夹 包分类: 1.项目包:主要用于编写项目和业务逻辑的文件夹 2.软件包:封装工具和方法供开发者使用(一般使用npm管理) 1&#…

编译支持播放H265的cef控件

接着在上次编译的基础上增加h265支持编译支持视频播放的cef控件(h264) 测试页面,直接使用cef_enhancement,里边带着的那个html即可,h265视频去这个网站下载elecard,我修改的这个版本参考了里边的修改方式,不过我的这个…

BI建设案例:FineBI大数据分析平台助力工程机械行业降本增效

工程机械行业作为国民经济的重要支柱,产品多样化、应用广泛,市场集中度高。其上游涉及原材料和核心零部件,下游则与房地产、基建工程和采矿等行业紧密相连。 如今,中国已崛起为全球工程机械制造大国,各类机械产品产量…

物联网通信中NB-IoT、Cat.1、Cat.M该如何选择?

物联网通信中NB-IoT、Cat.1、Cat.M该如何选择? 参考链接:物联网通信中NB-IoT、Cat.1、Cat.M该如何选择?​​ 在我们准备设计用于大规模联网的物联网设备时,选择到适合的LTE IoT标准将是我们遇到的难点。这是我们一开始设计产品方案就需要解决的一个问题,其决定我们设备需…

力扣HOT100 - 101. 对称二叉树

解题思路: class Solution {public boolean isSymmetric(TreeNode root) {if(root null) return true;return recur(root.left, root.right);}boolean recur(TreeNode L, TreeNode R) {if (L null && R null) return true;if (L null || R null || L.…