[论文精读]BrainVGAE: End-to-End Graph Neural Networks for Noisy fMRI Dataset

论文网址:BrainVGAE: End-to-End Graph Neural Networks for Noisy fMRI Dataset | IEEE Conference Publication | IEEE Xplore

英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用

目录

1. 省流版

1.1. 心得

1.2. 论文总结图

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Related Work

2.3.1. Deep Neural Networks (DNNs) for fRMI analysis

2.3.2. Variational Graph Auto-Encoders (VGAE)

2.4. Brainvgae

2.4.1. Preliminaries

2.4.2. BrainVGAE

2.5. Experimental Setup and Results

2.5.1. ABIDE Dataset

2.5.2. Experimental Setup

2.5.3. Results

2.6. Conclusion

3. 知识补充

3.1. Margin Sampling

3.2. Top-k sparsification

3.3. Graph Diffuse Convolution

4. Reference List


1. 省流版

1.1. 心得

(1)完了疑问都夹在笔记里面了啊

1.2. 论文总结图

2. 论文逐段精读

2.1. Abstract

        ①People pays little attention on node connectivity (edges), which causing performance decreasing in dealing with noisy dataset

        ②They designed a Variational Graph Auto-Encoders (VGAE)-based end-to-end framework

2.2. Introduction

        ①By adopting the time series as feature, deep learning (DL) and machine learning (ML) can be used to classify patients and healthy controls (HC). Also, modelling brain as graph can also used for classification

        ②⭐作者直接否认了选择绝对值top 10%节点的做法,但没有解释原因,只是说“可能会损害嘈杂数据集的性能”

        ③A plug-and-play edge predictor, BrainVGAE:

作者说左边是输入图。为什么是不对称的,是有向图吗?后面说根据概率添加或删除边,得到了“邻接矩阵”,仍然是不对称的。所以是有向??

        ④“我们建议 BrainVGAE 可以用作基于 GNN 的 fMRI 分析的通用框架,而不是试图超越 SOTA。”

2.3. Related Work

2.3.1. Deep Neural Networks (DNNs) for fRMI analysis

        ①CNN, RNN, AE are all be used in fMRI analysis

        ②They adopt each ROI as node

2.3.2. Variational Graph Auto-Encoders (VGAE)

        ①Edge augmentation enhances the performance on node classification tasks

        ②Do not change the number of "connectives" of each node(什么意思啊,边数目?上面那个图明明改了啊。对,下面说了边集合就是连接集合。你意思每个图的总数不变?有必要吗

2.4. Brainvgae

2.4.1. Preliminaries

(1)Brain-to-Graph construction

        ①Atlas: e.g. CC200(你都无向图了你到底为什么不对称啊!!

        ②Defining the graph \mathcal{G}=(V,\mathcal{E}), where N denotes the number of nodes

        ③\mathrm{X}\in\mathbb{R}^{N\times F} is the feature matrix, F denotes the feature dimension

        ④\mathrm{A}\in\{0,1\}^{N\times N} denotes adjacency matrix

        ⑤Node feature: Pearson correlation

        ⑥Edge feature: partial correlation among vertices

(2)Graph Convolutional Network (GCN)

        ①They choose GCN as the GNN:

\begin{aligned} \mathbf{H}^{(l+1)}& =\mathrm{GCN}\left(\mathbf{H}^{(l)},\mathbf{A}\right) \\ &=\mathrm{ReLU}\left(\tilde{\mathbf{D}}^{-\frac12}\tilde{\mathbf{AD}}^{-\frac12}\mathbf{H}^{(l)}\mathbf{W}^{(l)}\right) \end{aligned}

2.4.2. BrainVGAE

        Overall framework:

(1)VGAE-based Edge Predictor

        ①Given original adjacency matrix \mathbf{A} and feature matrix \mathbf{H}, the outputs construct the prediction result:

\mathbf{A}^{pred}=\sigma(\mathbf{Z}\mathbf{Z}^T)

where the latent variable:

\mathbf{Z}=\mathrm{GCN}((\mathrm{GCN}(\mathbf{X},\mathbf{A})),\mathbf{A})

        ②They apply Binary Cross Entropy (BCE) loss on edge prediction loss:

\mathcal{L}_{ep}=\text{BCE}(\mathbf{A}^{pred},\mathbf{A})

⭐which can eliminate potential distribution shift

        ③"The predicted inter-ROIs connectivity \mathbf{A}^{pred} is then further sampled to improve out-of-distribution robustness:"(为什么邻接矩阵也要pred?

\mathbf{A}_m=f_{sampling}(\mathbf{A}^{pred},\mathbf{A})

        ④⭐The number of edges need to be added or removed is a hyperparameter. Also, the edge number of each ROI keeps the same

        ⑤Training edge predictor by unsupervised method:

\mathcal{L}_{pre}=\mathbb{E}_{q(\mathbf{Z}\mid\mathbf{X},\mathbf{A})}[\log p(\mathbf{A}\mid\mathbf{Z})]-D_{KL}[q(\mathbf{Z}\mid\mathbf{X},\mathbf{A})\|p(\mathbf{Z})]

where p(\mathbf{Z}) denotes the Gaussian prior \mathcal{N}(0,I);

p(\mathbf{A}\mid\mathbf{Z}) represents the adjacency matrix likelihood conditioned on the latent variable(可能前面有Log吧

(2)GNN-based Feature Extractor

        ①Convolutional layer: GCN

        ②Node pooling layer: top-k pooling with k=0.5. What is more, the pooling loss can be:

\mathcal{L}_{pool}^{(l)}=\mathrm{BCE}(s_k^{(l)},s_N^{(l)})

where s_k denotes the total score of k remaining nodes;

s_N denotes the total nodes at l-th layer

        ③Applying global average pooling and global max pooling in readout layer:

\mathbf{z}^{(l)}=\max H^{(l)}\|\max H^{(l)}

and the final aggregation vector is sumed up by all the readout layer:

\mathbf{z}=\sum_{l=1}^{L}\mathbf{z}^{(l)}

        ④Overview: 2 conv-pool-read layers

        ⑤Schematic feature extractor:

(3)Label Classifier

        ①The label prediction loss:

\mathcal{L}_{label}=\mathrm{BCE}(\mathbf{y},\hat{\mathbf{y}})

        ②The final weighted sum loss:

\mathcal{L}=\mathcal{L}_{label}+\lambda_1\mathcal{L}_{ep}+\lambda_2\sum_{l=1}^{L}\mathcal{L}_{pool}^{(l)}

2.5. Experimental Setup and Results

2.5.1. ABIDE Dataset

        ①Dataset: ABIDE I

        ②Samples: 1035

2.5.2. Experimental Setup

(1)Graph Construction

        ①Atlas: Craddock 200

        ②⭐Graph sparsification: top-k sparsification by Graph Diffuse Convolution with k=20 (top 10% nodes)

(2)Experimental Setup

        ①Dimension:

0-th layer1-th layer
VGAE64×200200×64
GCN-feature extractor64×20064×64

        ②MLP dimension: 512→1024→2

        ③Loss coefficients: \lambda _1=0.3,\lambda _2=0.1

        ④Epoch: 500 with patience of 100

        ⑤Learning rate:0.001, halving in every 20 epochs

        ⑥Weight decay:0.0005

        ⑦Batch size: 100(好难得见到不是2的倍数的

        ⑧Epoch of unsupervised edge predictor: 100 with learning rate 0.0005

2.5.3. Results

        ①Comparison table:

2.6. Conclusion

        They proposed a novel framework BrainVGAE

3. 知识补充

3.1. Margin Sampling

(1)定义:

Margin Sampling(边界采样)是一种主动学习策略,主要用于选择模型分类边界附近的样本进行标记。这些样本对于模型来说更具挑战性,因为它们位于不同类别之间的边界区域,模型对这些样本的分类往往具有较高的不确定性。通过选择这些样本进行标记并加入训练集,可以帮助模型更好地学习分类边界,从而提高模型的分类性能。

具体来说,Margin Sampling通常通过计算模型对每个未标记样本的预测概率或得分来实现。然后,选择那些预测概率或得分最接近模型分类阈值(通常是0.5)的样本,这些样本就是位于分类边界附近的样本。将它们标记并加入训练集后,模型可以通过学习这些样本的特征来更好地确定分类边界。

在实际应用中,Margin Sampling可以与其他主动学习策略结合使用,以实现更高效的样本选择。例如,可以先使用不确定性采样策略选择一批具有高不确定性的样本,然后在这些样本中进一步使用Margin Sampling来选择位于分类边界附近的样本进行标记。这样可以确保选择的样本既具有代表性又具有挑战性,从而提高模型的训练效果。

需要注意的是,Margin Sampling的效果受到模型性能和数据分布的影响。如果模型本身性能较差或数据分布不均匀,可能会导致选择的样本不具有代表性或过于集中在某些特定区域。因此,在使用Margin Sampling时,需要结合实际情况进行调整和优化,以确保其有效性。

(2)公式:

x_M^*=argmin_x(P_\theta(\hat{y}_1|x)-P_\theta(\hat{y}_2|x))

3.2. Top-k sparsification

Top-K稀疏化(Top-K sparsification)是一种优化技术,旨在从大量数据中选择最重要的K个元素或特征,同时忽略其他不重要的元素。这种方法在多个领域中都有应用,特别是在机器学习和数据科学中,用于减少数据的维度和复杂性,同时保持数据的主要信息。

在Top-K稀疏化中,“K”表示选择的元素数量,这些元素通常是基于其重要性或权重进行选择的。重要性的度量可以根据不同的算法和应用场景来定义,比如基于权重、频率、相关性或其他度量标准。

稀疏化后的数据具有几个优点。首先,它减少了计算和存储的需求,因为处理的数据量减少了。其次,它可能有助于减轻过拟合问题,因为通过减少特征数量,模型可以更专注于最重要的信息。最后,稀疏化还可以提高模型的解释性,因为更容易理解和解释少量的重要特征。

然而,Top-K稀疏化也可能带来一些挑战。例如,如何确定最佳的K值是一个重要的问题,这通常需要通过实验或交叉验证来确定。此外,稀疏化可能会丢失一些有用的信息,特别是当K值设置得过小时。

在联邦学习(Federated Learning)的上下文中,Top-K稀疏化可能用于减少通信开销或提高模型训练的效率。例如,通过仅传输最重要的更新或梯度,可以减少在分布式系统中的通信成本。同时,稀疏化也有助于减轻节点之间的异构性问题,因为每个节点可以专注于其最具代表性的数据部分。

3.3. Graph Diffuse Convolution

参考学习:图扩散卷积:Graph_Diffusion_Convolution-CSDN博客

论文:[1911.05485] 扩散改进了图形学习 (arxiv.org)

4. Reference List

Mai, Q., Nakarmi, U. & Huang, M. (2022) 'BrainVGAE: End-to-End Graph Neural Networks for Noisy fMRI Dataset', 2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). doi:  10.1109/BIBM55620.2022.9994963

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/573853.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【字节二面】SpringBoot可以同时处理多少请求

目录 一、示例代码二、那么springboot可以处理多少请求?三、maxConnections、maxThreads、acceptCount的关系 一、示例代码 RestController Slf4j public class RequestController {GetMapping("/test")public String test(HttpServletRequest request) …

【详细讲解React 快速入门教程】

🔥博主:程序员不想YY啊🔥 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家💫 🤗点赞🎈收藏⭐再看💫养成习惯 🌈希望本文对您有所裨益,如有…

Linux基础命令大全

1、pwd:显示当前路径 cd :切换目录 用法:cd cd ../ 切换到上级目录 cd / 切换到根目录 cd ~ (或只有cd )切换到当前用户主目录(home底下以用户名命名的文件夹) /root目录mkdir 创建目录 mkdir 目录名 -p 递归创建目录…

代码随想录 Day-25

力扣题目 509.斐波那契数 思路 很理所当然的,可以使用递归的方式其次是用动态规划的方式,动态规划的核心就是递推公式。 那么递推和递归一字之差,有什么区别呢?(递推和递归的区别) 1、递归 class Solutio…

OD C卷 - 反射计数

反射计数(200) 给定一个包含0 、1的二维矩阵;一个物体从给定的初始位置出发,在给定的速度下移动,遇到矩阵的边缘则发生镜面反射,无论物体经过0还是1,都不影响其速度;经过t时间单位后…

C++ 之多态虚函数原理及应用

文章目录 多态基本概念和原理虚函数的基本原理和概念虚析构和纯虚析构多重继承中的虚函数小结 多态基本概念和原理 多态的基本概念 **多态是C面向对象三大特性之一** 多态的定义 多态是一种面向对象编程概念,指同一个行为(方法)在不同的对象上…

ChatGPT与传统搜索引擎的区别:智能对话与关键词匹配的差异

引言 随着互联网的快速发展,信息的获取变得比以往任何时候都更加便捷。在数字化时代,人们对于获取准确、及时信息的需求愈发迫切。传统搜索引擎通过关键词匹配的方式为用户提供了大量的信息,然而,这种机械式的检索方式有时候并不…

ubuntu 中安装docker

1 资源地址 进入ubuntu官网下载Ubuntu23.04的版本的镜像 2 安装ubuntu 这里选择再Vmware上安装Ubuntu23.04.6 创建一个虚拟机,下一步下一步 注意虚拟机配置网络桥接,CD/DVD选择本地的镜像地址 开启此虚拟机,下一步下一步等待镜像安装。 3…

书生·浦语大模型实战营之全链路开源体系

书生浦语大模型实战营之全链路开源体系 为了推动大模型在更多行业落地开花,让开发者们更高效的学习大模型的开发与应用,上海人工智能实验室重磅推出书生浦语大模型实战营,为广大开发者搭建大模型学习和实践开发的平台,两周时间带…

【Java程序设计】【C00352】基于Springboot的疫情隔壁酒店管理系统(有论文)

基于Springboot的疫情隔壁酒店管理系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 项目获取 🍅文末点击卡片获取源码🍅 开发环境 运行环境:推荐jdk1.8; 开发工具:eclipse以…

C语言例4-28:求两个正整数的最大公约数。

算法分析&#xff1a; 输入两个正整数m和nm%n 的余数 r&#xff0c;然后 mn;nr;当 n0, 则m是最大公约数&#xff0c;算法结束&#xff1b;否则转至执行2&#xff0c;重复上述过程&#xff0c;直到n0为止 代码如下&#xff1a; //求两个正整数的最大公约数。 #include<std…

PointNet++论文复现(三)【抽象层定义、分类模型 代码详解】

目录 抽象层 特征提取 整体代码 分类模型 以 pointnet2_cls_msg.py 为例 整体代码 抽象层 位于 pointnet2_utils.py 定义 特征提取 整体代码 # 特征提取 对应PointNet++ 中的 set abstraction (集合抽象化) # 首先, 通过 sample_and_group 操作形成局部 group # 然后, 对…